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内 容 简介 


TensorFlow 是 谷歌 2015 年 开源 的 主流 深度 学 习 框 架 ， 目 前 已 在 谷歌 、 优 步 (Uber)、 京 东 、 小 米 等 科 
技 公司 广泛 应 用 。 本 书 为 使 用 TensorFlow 深度 学 习 框 架 的 入 门 参考 书 ， 则 在 帮助 读者 以 快速 、 有 效 的 方 
式 上 手 TensorFlow 和 深度 学 习 。 书 中 省 略 了 深度 学 习 繁 琐 的 数学 模型 推导 ， 从 实际 应 用 问题 出 发 ， 通 过 
具体 的 TensorFlow 样 例 程 序 介绍 如 何 了 使 用 深度 学 习 解 决 这 些 问 题 。 书 中 包含 了 深度 学 习 的 入 门 知识 和 
大 量 实践 经 验 ， 是 走 进 这 个 前 沿 、 热 门 的 人 工 智能 领域 的 首选 参考 书 。 

读者 对 象 : 对 人 工 智 能 、 深 度 学 习 感 兴趣 的 计算 机 相关 从 业 人 员 ， 想 要 使 用 深度 学 习 或 TensorFlow 的 
数据 科学 家 、 工 程 师 , 希望 了 解 深度 学 习 的 大 数据 平台 工程 师 , 对 人 工 智能 、 机 器 学 习 感 兴趣 的 在 校 学 生 ， 
希望 找 深度 学 习 相关 岗位 的 求职 人 员 ， 等 等 。 


未 经 许可 ， 不 得 以 任何 方式 复制 或 抄袭 本 书 之 部 分 或 全 部 内 容 。 
版 权 所 有 ， 侵 权 必 究 。 
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推 存 序 1 


“互联 网 +” 的 大 潮 催 生 了 请 如 “互联 网 + 外 卖 和 “互联 网 + 打车 “互联 网 + 家 政 ” 等 
众多 商业 模式 的 创新 和 创业 佳话 。 而 当 “ 互 联网 +” 已 被 号 入 教科 书 并 成 为 传统 行业 都 在 积 
极 践 行 的 发 展 道路 时 ， 过 去 一 年 科技 界 的 聚光灯 却 被 人 工 智能 和 深度 学 习 所 创造 的 一 个 个 
奇迹 所 占据 。 从 阿尔 法 狗 肆 虐 围 模 界 ， 到 人 工 智 能 创业 大 军 的 崛起 ， 都 预示 着 我 们 即将 步 
入 “AI+” 的 时 代 :“AI+ 教 育 ””“AI+ 媒 体 ”“AI+ 医 学 ””“AI+ 配 送 ”“AI+ 农 业 ”， 等 等 ， 
将 会 层出不穷 。 

AI 在 近期 的 爆发 离 不 开 数 据 “ 质 ”和 “ 量 ” 的 提升 ， 离 不 开 高 性 能 计算 平台 的 发 展 ， 
更 离 不 开 算法 的 进步 ， 而 深度 学 习 则 成 为 了 推动 算法 进步 中 的 一 个 主力 军 。TensorFlow 作 
为 谷歌 开源 的 深度 学 习 框 架 , 包含 了 谷歌 过 去 10 年 间 对 于 人 工 智能 的 探索 和 成 功 的 商业 应 
用 ,谷歌 的 上 自驾 车 、 搜索 、 购物、 广告 、 云 计算 等 产品 , 都 无 时 无 刻 不 在 利用 类 似 TensorFlow 
的 深度 学 习 算法 将 数据 的 价值 最 大 化 ， 从 而 创造 巨大 的 商业 价值 。 

TensorFlow 作为 一 个 开源 框架 ， 在 极 短 时 间 内 迅速 圈 粉 并 已 成 为 github.com 上 浴 眼 的 
明星 。 然 而 ， 掌 握 深度 学 习 需 要 较 强 的 理论 功底 ， 用 好 TensorFlow 又 需要 足够 的 实践 和 解 
析 。 开 源 项 目 和 代码 本 身 固然 重要 ， 但 更 重要 的 是 使 用 者 的 经 验 和 领域 知识 ， 以 及 如 何 将 
故 层 技术 或 工具 采用 最 佳 实 践 和 模式 来 解决 现实 问题 。 我 与 作者 共事 多 年 ， 浏 览 本 书后 深 
深 体会 到 该 作品 是 作者 在 谷歌 多 年 分 布 式 深度 学 习 实 践 经 验 和 其 理论 才学 的 浓缩 ， 也 相信 
这 本 从 入 门 到 高 级 实践 的 读物 能 够 为 每 个 读者 带 来 一 个 精神 盛 宣 ， 并 帮助 计算 机 技术 从 业 
者 在 各 目的 业务 领域 打开 新 的 思路 、 插 上 新 的 她 膀 。 


张 答 
杭州 才 云 科技 有 限 公 司 联合 创始 人 CEO、Carnegie Mellon University 计算 机 博士 
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推 芷 序 2 


自 2015 年 11 月 发 布 以 来 ,TensorFlow 在 GitHub 上 迅速 受到 广泛 关注 。TensorFlow 的 
一 个 突出 特点 ， 是 它 很 好 地 兼顾 了 学 术 研 究 和 工业 生产 的 不 同 需求 。 一 方面 ，TensorFlow 
的 灵活 性 使 得 研究 人 员 能 够 利用 它 快速 实现 最 新 的 模型 设计 ; 另 一 方面 ，TensorFlow 强大 
的 分 布 式 支持 ， 对 工业 界 在 海量 数据 集 上 进行 的 模型 训练 也 至 天 重要 。 

以 我 供职 的 谷歌 翻译 组 为 例 ， 在 研发 最 新 的 神经 网 络 翻译 模型 过 程 中 ， 我 们 既 需 要 快 
速 灵活 地 尝试 学 术 界 各 类 最 新 的 想法 ， 又 需要 成 熟 、 高 效 的 分 布 式 训练 系统 ， 以 便 在 十 亿 
句 量 级 的 训练 数据 上 训练 最 终 模型 。TensorFlow 的 特性 使 我 们 只 和 需 维护 一 套 人 代码， 就 能 够 
高 效 兼顾 这 两 方面 的 工作 。 模型 训练 完成 之 后 , 我 们 又 借助 TensorFlow 搭建 了 一 个 高 性 能 、 
低 延 迟 的 在 线 翻译 服务 。 目 前 谷歌 翻译 每 天 完成 大 约 千 亿 词 量 级 的 文字 翻译 任务 ， 其 中 超 
过 35% 是 通过 TensorFlow 进行 的 。 

TensorFlow 还 有 着 强大 的 可 移植 性 ， 支 持 GPU、CPU、 安 卓 、iOS 等 多 种 计算 平台 。 
受益 于 这 一 特性 ， 开 发 者 可 以 在 移动 平台 上 开发 复杂 的 深度 学 习 应 用 。 仍 以 翻译 为 例 ， 合 
歌 翻译 应 用 中 广 受 好 评 的 图 片 即时 翻译 功能 ， 就 是 依赖 于 移动 平台 上 的 TensorFlow， 使 用 
用 户 的 手机 本 地 完成 计算 的 。 这 一 功能 可 以 帮助 人 们 摆脱 语言 和 手机 网 络 的 约束 ， 更 加 目 
由 地 体验 全 球 各 地 的 风土 人 情 。 

谷歌 已 经 将 TensorFlow 大 规模 应 用 于 数 十 项 产品 的 研发 中 , 而 在 谷歌 以 外 ,TensorFlow 
也 逐渐 得 到 广泛 应 用 。 从 国内 的 小 米 、 京 东 ， 到 硅谷 的 Uber、Airbnb、Twitter 等 ， 都 已 经 
开始 采用 TensorFlow 进行 生产 实践 。 多 伦 多 大 学 、 加 州 大 学 伯克利 分 校 等 著名 高 校 ， 也 已 
经 将 TensorFlow 用 于 教学 当中 , 斯 坦 福 大 竺 更 是 专门 开设 了 “TensorFlow for Deep Learning 
Research” 课 程 ， 帮 助 学 生 深入 理解 这 一 深度 学 习 领 域 的 重要 工具 。 

作者 郑 泽 宇 是 我 的 多 年 好 友 ， 他 对 于 机 器 学 习 的 学 术 研 究 和 工业 应 用 方面 都 有 着 极 为 
丰富 的 经 验 。 这 本 教程 从 深入 浅 出 ， 涵 盖 了 深度 学 习 中 常见 算法 的 理论 基础 和 TensorFlow 
实现 两 方面 内 容 。 相 信 这 本 书 能 帮助 读者 在 最 短 时 间 内 理解 深度 学 习 并 熟练 应 用 
TensorFlow， 在 这 一 当前 极为 活跃 的 领域 展开 工程 实践 。 

深 博 文 
工程 师 ， 谷 歌 翻译 团队 
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推荐 序 3 


深度 学 习 带 来 的 技术 革命 波及 甚 广 ， 学 术 界 同样 早已 从 中 受益 ， 将 深度 学 习 广 泛 应 用 
到 各 个 学 科 领 域 。 深 度 学 习 源 目 “ 古 老 ” 的 神经 网 络 技 术 ， 既 标志 着 传统 神经 网 络 的 卷 士 
重 来 ， 也 厌 由 AlphaGo 碾 压 人 类 围棋 一 役 ， 开 局 了 AI 爆炸 式 发 展 的 大 幕 。 机 器 学 习 为 人 

工 智 能 指明 道路 ， 而 深度 学 习 则 让 机 器 学 习 真 正 落地 。 作 为 高 等 教育 工作 者 ， 让 学 生 了 解 
re i Lave dn 从 近来 国内 外 互联 网 巨 辟 对 
未 来 的 展望 中 可 见 端 1 智能 技术 ， 坚 无 疑问 是 下 一 个 时 代 的 
主角 和 支柱 。 

然而 ， 目 前 深度 学 习 的 相关 资料 ， 尤 其 是 像 TensorFlow 这 种 引领 未 来 趋势 的 新 技术 的 
学习 资料 ， 普 遍 存在 明显 缺憾 。 

其 一 ， 中 文 资料 非常 少 ， 而 且 信息 零散 、 不 成 系统 。 这 篇 文章 里 讲 一 个 算法 ， 那 个 博 
客 里 介绍 一 个 应 用 ， 很 难 让 学 生 形 成 一 个 完整 的 、 全 局 的 概念 体系 。 

其 二 ， 已 有 的 深度 学 习 资 料 大 多 偏重 理论 ， 对 概率 、 统 计 等 数学 功底 有 很 高 的 要 求 ， 
不 易 激 友 学 生 的 兴 

而 这 些 现存 问题 ， 也 正 是 我 对 泽 宇 这 部 著作 寄予 厚望 的 原因 一 一 这 是 一 本 非常 适合 
校 学 生 走 近 深 度 学 习 的 入 门 读物 。 因 为 它 从 实际 问题 出 发 ， 可 以 激发 读者 的 兴趣 ， 让 读 老 
可 以 快速 而 直观 地 享受 到 解决 问题 的 成 就 感 。 同 时 ， 此 书 理论 与 实践 并 重 ， 既 介绍 了 深度 
学 习 的 基本 概念 ， 为 更 加 深入 地 研究 深度 学 习 葛 定 基础 ;又 给 出 了 有 具体 的 TensorFlow 样 例 
代码 ， 让 读者 可 以 将 学 习 成 果 直 接 运用 到 实践 中 

我 非常 相信 也 衷心 希望 ， 有 志 参 与 深度 学 习 未 来 大 潮 的 伴 莘 学 子 ， 能 凭借 此 书 更 快速 、 
更 扎实 地 开局 党 并 通过 TensorFlow 来 实现 深度 学 习 常 用 算法 , 从 而 登 堂 入 室 ， 
最 终 成 为 AI 的 真正 驾驭 


vag 














张 铭 
北京 大 学 信息 学 院 教 授 
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“深度 学 习 ” 这 个 词 在 过 去 的 一 年 之 中 已 经 到 炸 了 媒体 、 技 术 博 客 甚至 朋友 较 。 这 也 许 
正 是 你 会 读 到 本 书 的 原因 之 一 。 数 十 年 来 ， 人 工 智 能 技术 虽 不 断 发 展 ， 但 像 深 度 学 习 这 样 
在 学 术 界 和 工业 界 缘 具 颠 履 性 的 技术 实在 是 十 年 难 遇 。 可 惜 的 是 ， 理 解 和 灵活 运用 深度 学 
习 并 不 容易 ， 尤 其 是 其 复杂 的 数学 模型 ， 让 不 少 感 兴趣 的 同学 “从 入 门 到 放弃 ”更 糟 糕 的 
是 ， 因 为 深度 学 习 技 术 的 飞速 发 展 ， 而 写 书 、 出 版 的 过 程 又 非常 复杂 ， 不 论 是 英文 还 是 中 
文 ， 都 很 难 找到 从 实战 出 发 的 深度 学 习 参 考 书 。 关 于 当前 最 新 最 火 的 深度 学 习 框 架 
TensorFlow 的 书籍 更 是 空缺 。 这 正 是 作者 在 工作 之 余 ， 熬 夜 写 这 本 书 的 动力 。 作 者 本 人 作 
为 一 枚 标准 码 农 、 创 业 党 ， 希 望 这 本 书 能 够 帮助 码 农 和 准 码 农 们 绕 过 深度 学 习 复 杂 的 数据 
公式 ， 通 过 本 书 的 大 量 样 例 代码 快速 上 手 深度 学 习 ， 解 决 工作 、 学 习 中 的 实际 问题 。 

2016 年 初 ， 作 者 和 小 伙伴 们 从 美国 谷歌 辞职 ， 回 到 祖国 杭州 联合 创办 了 才 云 科技 
(Caicloud.io), 为 企业 提供 人 工 智能 平台 和 解决 方案 , 在 作者 回国 之 初 ,很 多 企业 都 展示 出 
了 对 于 TensorFlow 浓厚 的 兴趣 。 然 而 在 深度 交流 之 后 ， 作 者 发 现 虽 然 TensorFlow 是 一 球 非 
常 容易 上 手 的 工具 ， 但 是 深度 学 习 的 技术 目前 并 不 是 每 一 个 企业 都 掌握 的 。 为 了 让 更 多 的 
个 人 和 企业 可 以 享受 到 深度 学 习 技术 带 来 的 福利 ， 作 者 与 电子 工业 出 版 社 的 张 春 雨 主编 一 
拍 即 合 ， 开 始 了 本 书 的 撰写 工作 。 

使 用 TensorFlow 实现 深度 学 习 是 本 书 重 点 介绍 的 对 象 。 本 书 将 从 TensorFlow 的 安装 开 
始 ， 逐 一 介绍 TensorFlow 的 基本 概念 、 使 用 TensorFlow 实现 全 连接 深层 神经 网 络 、 卷 积 神 
经 网 络 和 循环 神经 网 络 等 深度 学 习 算法 。 在 介绍 使 用 TensorFlow 实现 不 同 的 深度 学 习 算法 
的 同时 ， 作 者 也 深入 浅 出 地 介绍 了 这 些 深 度 学 习 算 法 背后 的 理论 ， 并 给 出 了 这 些 算法 可 以 
解决 的 具体 问题 。 在 本 书 中 ， 作 者 避 开 了 枯燥 复杂 的 数学 公式 ， 从 实际 问题 出 发 ， 在 实践 
中 介绍 深度 学 习 的 概念 和 TensorFlow 的 用 法 。 在 本 书 中 ,作者 还 介绍 了 TensorFlow 并 行 化 
输入 数据 处 理 流程 、TensorBoard 可 视 化 工具 以 及 带 GPU 的 分 布 式 TensorFlow 使 用 方法 。 

TensorFlow 是 一 个 飞速 发 展 的 工具 。 本 书 在 写作 时 最 新 的 版 本 为 0.9.0， 然 而 到 本 书 出 
版 时 ， 谷 歌 已 经 推出 了 TensorFlow 1.0.0。 为 了 让 广大 读者 更 好 地 理解 和 试用 书 中 的 样 例 代 
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[中 


前 


码 ， 我 们 提供 了 一 个 公开 的 GitHub 代码 库 来 维护 不 同 TensorFlow 版 本 的 样 例 程序 。 该 代 
码 库 的 网 址 为 https://github.com/caicloud/tensorflow-tutorial。 在 Caicloud 提供 的 TensorFlow 
镜像 cargo.caicloud.io/tensorflow/tensorflow:0.12.0 中 也 包含 了 本 书 的 样 例 代码 。 作 者 衷心 地 
希望 各 位 读者 能 够 从 本 书 获 益 ， 这 也 是 对 我 们 最 大 的 文 持 和 鼓励 。 对 于 书 中 出 现 的 任何 错 
误 或 者 不 准确 的 地 方 ， 欢 迎 大 家 批评 指正 ， 并 友 送 邮件 至 zeyu@caicloud.io。 

读者 也 可 登录 博文 视点 官网 http://www.broadview.com.cn 下 载 本 书 代 码 或 提交 勘误 信 
尽 。 一 旦 勘误 信息 被 作者 或 编辑 确认 ， 即 可 获得 博文 视点 奖励 积分 ， 可 用 于 兑换 电子 书 。 
读者 可 以 随时 浏览 图 书页 面 ， 玛 看 已 友 布 的 勘误 信息 。 
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用 户 广 册 


轻松 注册 成 为 博文 视点 社区 用 户 (www.broadview.com.cn)， 您 即 可 享受 以 下 服务 。 

。 下 载 资源 ， 本 书 所 提供 的 示例 代码 及 资源 文件 均 可 在 【下 载 资 源 】 处 下 载 。 

。 提交 勘 误 : 您 对 书 中 内 容 的 修改 意见 可 在 【提交 勘误 】 处 提交 ， 帮 被 采纳 ， 将 获 赠 
博文 视点 社区 积分 〈 在 您 购买 电子 书 时 ， 积 分 可 用 来 抵 扣 相应 金额 )。 

e。 与 作者 交流 : 在 页 面 下 方 【 读 者 评论 】 处 留 下 您 的 疑问 或 观点 ， 与 作者 和 其 他 读者 
一 同学 习 交 流 。 


页 面 入 口 : http://www.broadview.com.cn/30959 
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人 1 全 深度 学 习 简 介 


随 着 AlphaGo 战胜 李 世 石 , 人 工 智能 和 深度 学 习 这 些 概 念 已 经 成 为 一 个 非常 火 的 话题 。 
谷歌 (Google)、 脸 书 〈Facebook)、 百 度 、 阿 里 巴巴 等 一 系列 国内 外 大 公司 纷纷 对 外 公开 
宣布 了 人 工 智能 将 作为 他 们 下 一 个 战略 重心 。 在 类 似 AlphaGo、 无 人 驾驶 汽车 等 最 新 技术 
的 背后 ， 深 度 学 习 是 推动 这 些 技术 发 展 的 核心 力量 。“ 深 度 学 习 ” 是 本 书 的 核心 概念 。 通 过 
阅读 本 章 ， 读 者 将 从 多 个 角度 了 解 这 一 概念 。 人 工 智 能 、 机 器 学 习 与 深度 学 习 这 几 个 关键 
词 时 常 出 现在 媒体 新 闻 中 ， 并 错误 地 被 认为 是 等 同 的 概念 。1.1 节 将 介绍 人 工 智 能 、 机 器 学 
习 以 及 深度 学 习 的 概念 ， 并 着 重 解析 它们 之 则 的 关系。 这 一 市 将 从 不 同 领域 需要 解决 的 问 
题 入 手 ， 依 次 介绍 这 些 领域 的 基本 概念 以 及 解决 领域 内 问题 的 主要 思路 。 在 介绍 完 深度 学 
习 基 本 的 概念 之 后 ，1.2 节 将 完整 地 介绍 深度 学 习 发 展 史 。 虽 然 “ 深 度 学 习 ” 这 个 名 词 是 在 
最 近 几 年 才 提 出 ， 但 深度 学 习 基 于 的 神经 网 络 算法 却 早 在 20 世纪 40 年 代 就 出 现 了 。 这 一 
节 将 会 介绍 神经 网 络 发 展 过 程 中 的 重大 事件 ， 并 介绍 深度 学 习 研 究 领域 的 发 展 历程 。 

接着 ，1.3 节 将 从 计算 机 视觉 、 语 音 识 别 、 目 然 语 言 处 理 和 人 机 博 研 四 个 不 同 的 方 癌 介 
绍 目前 深度 学 习 的 应 用 。 从 2012 年 深度 学 习 被 成 功 应 用 于 图 像 识 别 问题 以 来 , 研究 人 员 一 
直 在 扩展 它 的 应 用 范围 和 影响 力 。 这 一 节 既 会 介绍 在 不 同方 同上 深度 学 习 在 学 术 界 取得 的 
成 就 ， 也 会 介绍 工业 界 成 功 应 用 深度 学 习 的 案例 。 最 后 ，1.4 节 将 引出 本 书 的 重点 一 一 
TensorFlow。TensorFlow 是 谷歌 开源 的 一 个 计算 框架 ， 该 计算 框架 可 以 很 好 地 实现 各 种 深 
度 学 习 算 法 。 这 一 节 将 简单 介绍 TensorFlow 的 特性 以 及 它 目 前 的 应 用 场景 。 也 将 对 比 不 同 
的 开源 深度 学 习 工 具 ， 并 通过 具体 的 数字 来 说 明 TensorFlow 相 比 其 他 工具 的 优势 以 及 作者 
将 TensorFlow 作为 本 书 介 绍 对 象 的 原因 。 
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TensorFlow: 实战 Google 深度 学 习 框 架 
1.1 人 工 智能 、 机 器 学 习 与 深度 学 习 ” 


从 计算 机 发 明之 初 ， 人 们 就 希望 它 能 够 帮助 甚至 代 蔡 人 类 完成 重复 性 大作 。 利 用 巨大 
的 存储 空间 和 超 高 的 运算 速度 ， 计 算 机 已 经 可 以 非常 轻易 地 完成 一 些 对 于 人 类 非常 困难 ， 
但 对 计算 机 相对 简单 的 问题 。 比 如 ， 统 计 一 本 书 中 不 同 单词 出 现 的 次 数 ， 存 储 一 个 图 书馆 
中 所 有 的 藏书 ， 或 是 计算 非常 复杂 的 数学 公式 ， 都 可 以 轻松 通过 计算 机 解决 。 然 而 ， 一 些 
人 类 通过 直觉 可 以 很 快 解决 的 问题 ， 目 前 却 很 难 通过 计算 机 解决 。 这 些 问 题 包括 目 然 语 言 
理解 、 图 像 识 别 、 语 音 识 别 ， 等 等 。 而 它们 就 是 人 工 智能 需要 解决 的 问题 。 

计算 机 要 像 人 类 一 样 完成 更 多 智能 的 工作 ， 需 要 掌握 关于 这 个 世界 海量 的 知识 。 比 如 
要 实现 汽车 自动 驾驶 ， 计 算 机 人 至少 需 要 能 够 判断 哪里 是 路 ， 哪 里 是 障碍 物 。 这 个 对 人 类 非 
常 直观 的 东西 ， 但 对 计算 机 却 是 相当 困难 的 。 路 有 水 泥 的 、 沥 青 的 ， 也 有 石子 的 甚至 土路 。 
这 些 不 同 材 质 铺 成 的 路 在 计算 机 看 来 差距 非常 大 。 如 何 让 计算 机 掌握 这 些 人 头 看 起 来 非 和 
直观 的 常识 ， 对 于 人 工 智能 的 发 展 是 一 个 巨大 的 挑战 。 很 多 早期 的 人 工 智 能 系统 只 能 成 功 
应 用 于 相对 特定 的 环境 (specific domain)， 在 这 些 特定 环境 下 ， 计 算 机 需要 了 解 的 知识 很 
容易 被 严格 并 且 完 整地 定义 。 例 如 ，IBM 的 深蓝 (Deep Blue) 在 1997 年 打败 了 国际 象棋 
冠军 卡 斯 帕 罗 夫 。 设 计 出 下 象棋 软件 是 人 工 智 能 史上 的 重大 成 就 ， 但 其 主要 挑战 不 在 于 让 
计算 机 掌握 国际 象棋 中 的 规则 。 国 际 象棋 是 一 个 特定 的 环境 ， 在 这 个 环境 中 ， 计 算 机 上 内需 
要 了 解 每 一 个 棋子 规定 的 行动 范围 和 行动 方法 即 可 。 虽然 计 算 机 早 在 1997 年 就 可 以 击败 国 
际 象棋 的 世界 冠军 , 但 是 直到 20 年 后 的 今天 ， 让 计算 机 实现 大 部 分 成 年 人 都 可 以 完成 的 汽 
车 驾驶 却 仍然 依旧 十 分 困难 。 

为 了 使 计算 机 更 多 地 掌握 开放 环境 (open domain) 下 的 知识 ， 研 究 人 员 进 行 了 很 多 笠 
试 。 其 中 一 个 影响 力 非常 大 的 领域 是 知识 图 库 (Ontology”)。WordNet 是 在 开放 环境 中 建 
立 的 一 个 较 大 且 有 影响 力 的 知识 图 库 。WordNet 是 由 普林斯顿 大 学 (Princeton University ) 
的 George Armitage Miller 教授 和 Christiane Fellbaum 教授 带领 开发 的 ， 它 将 155287 个 单词 
整理 为 了 117659 个 近义词 集 (synsets)。 基 于 这 些 近 义 词 集 ，WordNet 进一步 定义 了 近 义 
词 集 之 间 的 关系 。 比 如 同义词 集 “ 狗 ”属于 同义词 集 “ 犬 科 动 物 ”， 他 们 之 间 存 在 种 属 关 系 
(hypernyms/hyponyms)“。 除 了 WordNet， 也 有 不 少 研究 人 员 尝 试 将 Wikipedia 中 的 知识 整 
理 成 知识 图 库 。 谷 歌 的 知识 图 库 就 是 基于 Wikipedia 创建 的 。 


@ 本 节 部 分 内 容 参见 : Goodfellow I, Bengio Y, Courville A. Deep learning [M]. The MIT Press,2016. 

G@ 知识 图 库 Ontology 有 时 又 被 称 为 Knowledge Graph。 Knowledge Graph 更 多 的 是 指 代 谷歌 内 部 建立 的 知 
识 图 库 ， 而 Ontology 更 多 指 代 的 是 知识 图 库 这 个 学 术 领 域 。 

@) 更 多 关于 WordNet 的 信息 可 以 参考 其 官方 网 站 : https://wordnet.princeton.edu/。 
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虽然 使 用 知识 图 库 可 以 让 计算 机 很 好 地 掌握 人 工 定 义 的 知识 ， 但 建立 知识 图 库 一 方面 
需要 花费 大 量 的 人 力 物力 ， 另 一 方面 可 以 通过 知识 图 库 方式 明确 定义 的 知识 有 限 ， 不 是 所 
有 的 知识 都 可 以 明确 地 定义 成 计算 机 可 以 理解 的 固定 格式 。 很 大 一 部 分 无 法 明确 定义 的 知 
识 ， 就 是 人 类 的 经 验 。 比 如 我 们 需要 判断 一 封 邮 件 是 否 为 垃圾 邮件 ， 会 综合 考虑 邮件 发 出 
的 地 址 、 邮 件 的 标题 、 邮 件 的 内 容 以 及 邮件 收 件 人 的 长 度 ， 等 等 。 这 是 收 到 无 数 垃圾 邮件 
骚扰 之 后 总 结 出 来 的 经 验 。 这 个 经 验 很 难以 贺 定 的 方式 表达 出 来 ， 而 且 不 同人 对 垃圾 邮件 
的 判断 也 会 不 一 样 。 如 何 让 计算 机 可 以 跟 人 类 一 样 从 历史 的 经 验 中 获取 新 的 知识 呢 ? 这 就 
是 机 器 学 习 需 要 解决 的 问题 。 

卡 内 基 梅 隆 大 学 (Camegie Mellon University) 的 Tom Michael Mitchell 教授 在 1997 年 
出 版 的 书籍 Machine Learnine" 中 对 机 器 学 习 进 行 过 非常 专业 的 定义 ， 这 个 定义 在 学 术 界 内 
被 多 次 引用 。 在 这 本 书 中 对 机 器 学 习 的 定义 为 “如 果 一 个 程序 可 以 在 任务 T 上 ， 随 着 经 验 
E 的 增加 ， 效 果 了 也 可 以 随 之 增加 ， 则 称 这 个 程序 可 以 从 经 验 中 学 习 ”。 通过 垃圾 邮件 分 类 
的 问题 来 解释 机 器 学 习 的 定义 。 在 垃圾 邮件 分 类 问题 中 ,“ 一 个 程序 ” 指 的 是 需要 用 到 的 机 
器 学 习 算 法 ， 比 如 还 辑 回 归 算 法 ;“ 任 务 T” 是 指 区 分 垃圾 邮件 的 任务 ;“ 经 验 E” 为 已 经 
区 分 过 是 否 为 垃圾 邮件 的 历史 邮件 ， 在 监督 式 机 器 学 习 问 题 中 ， 这 也 被 称 之 为 训练 数据 ; 
“效果 了 ”为 机 器 学 习 算 法 在 区 分 是 否 为 垃圾 邮件 任务 上 的 正确 率 。 

在 使 用 逻辑 回归 算法 解决 垃圾 邮件 分 类 问题 时 ， 会 先 从 每 一 封 邮 件 中 抽取 对 分 关 结 果 
可 能 有 影响 的 因素 ， 比 如 说 上 文 提 到 的 发 邮件 的 地 址 、 邮 件 的 标题 及 收 件 人 的 长 度 ， 等 等 。 
每 一 个 因素 被 称 之 为 一 个 特征 (feature)。 逻 辑 回 归 算 法 可 以 从 训练 数据 中 计算 出 每 个 特征 
和 预测 结果 的 相关 度 。 比 如 在 垃圾 邮件 分 类 问题 中 ， 可 能 会 发 现 如 果 一 个 邮件 的 收 件 人 越 
多 ， 那 么 邮件 为 垃圾 邮件 的 概率 也 就 越 高 。 在 对 一 封 未 知 的 邮件 做 判断 时 ， 逻 辑 回 归 算 法 
会 根据 从 这 封 邮 件 中 抽取 得 到 的 每 一 个 特征 以 及 这 些 特 征 和 垃圾 邮件 的 相关 度 来 判断 这 封 
邮件 是 否 为 垃圾 邮件 。 

在 大 部 分 情况 下 ， 在 训练 数据 达到 一 定数 量 之 前 ， 越 多 的 训练 数据 可 以 使 逻辑 回归 算 
法 对 未 知 邮件 做 出 的 判断 越 精准 。 也 就 是 说 逻辑 回归 算法 可 以 根据 训练 数据 经验 E) 提 
高 在 垃圾 邮件 分 类 问题 (任务 T) 上 的 正确 率 (效果 P)。 之 所 以 说 在 大 部 分 情况 下 ， 是 
因为 逻辑 回归 算法 的 效果 除了 依赖 于 训练 数据 ， 也 依赖 于 从 数据 中 提取 的 特征 。 假 设 从 
邮件 中 抽取 的 特征 只 有 邮件 发 送 的 时 间 ， 那 么 即使 有 再 多 的 训练 数据 ， 人 逻辑 回归 算法 也 
无 法 很 好 地 利用 。 这 是 因为 邮件 发 送 的 时 间 和 邮件 是 否 为 垃圾 邮件 之 则 的 关联 不 大 ， 而 好 
辑 回归 算法 无 法 从 数据 中 习 得 更 好 的 特征 表达 。 这 也 是 很 多 传统 机 器 学 习 算法 的 一 个 共同 
的 问题 。 


(CD Mitchell T M, Carbonell J G, Michalski R S. Machine Learning [M]. McGraw-Hill, 2003. 
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类 似 从 邮件 中 提取 特征 ， 如 何 数字 化 地 表达 现实 世界 中 的 实体 ， 一 直 是 计算 机 科学 中 
一 个 非常 重要 问题 。 如 果 将 图 书馆 中 的 图 书 名 称 储存 为 结构 化 的 数据 ， 比 如 储存 在 Excel 
表格 中 ， 那 么 可 以 非常 容易 地 通过 书 名 查询 一 本 书 是 否 在 图 书馆 中 。 如 果 图 书 的 书 名 都 是 
存在 非 结构 化 的 图 片 中 ， 那 么 要 完成 书 名 查找 任务 的 难度 将 大 大 增加 。 类 似 的 道理 ， 如 何 
从 实体 中 提取 特征 ， 对 于 很 多 传统 机 器 学 习 算 法 的 性 能 有 巨大 影响 。 图 1-1 展示 了 一 个 简 
单 的 例子 。 如 果 通 过 笛 卡 尔 坐 标 系 〈cartesian coordinates) 来 表示 数据 ， 那 么 不 同 颜色 的 结 
点 无 法 被 一 条 直线 划分 。 如 果 将 这 些 点 映射 到 极 角 坐标 系 〈polar coordinates)， 那 么 使 用 直 
线 划 分 就 很 容易 了 。 同 样 的 数据 使 用 不 同 的 表达 方式 会 极 大 地 影响 解决 问题 的 难度 。 一 旦 
解决 了 数据 表达 和 特征 提取 ， 很 多 人 工 智能 任务 也 就 解决 了 90%。 
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图 1-1 不 同 的 数据 表达 对 使 用 直线 划分 不 同 颜色 结 点 的 难度 影响 


然而 ， 对 许多 机 器 学 习 问 题 来 说 ， 特 征 提 取 不 是 一 件 简 单 的 事情 。 在 一 些 复杂 问题 上 ， 
要 通过 人 工 的 方式 设计 有 效 的 特征 集合 ， 需 要 很 多 的 时 间 和 精力 ， 有 时 甚至 需要 整个 领域 
数 十 年 的 研究 投入 。 例 如 ， 假 设想 从 很 多 照片 中 识别 汽车 。 现 在 已 知 的 是 汽车 有 轮子 ， 所 
以 希望 在 图 片 中 抽取 “图 片 中 是 否 出 现 了 轮子 ”这 个 特征 。 但 实际 上 ， 要 从 图 片 的 像素 中 
描述 一 个 轮子 的 模式 是 非常 难 的 。 虽然 车 轮 的 形状 很 简单 ， 但 在 实际 图 片 中 ， 车 轮 上 可 能 
会 有 来 自 车 身 的 阴影 、 金 属 车 轴 的 反光 ， 周 围 物品 也 可 能 会 部 分 遮挡 车 轮 。 实 际 图 片 中 各 
种 不 确定 的 因素 让 我 们 很 难 直 接 抽取 这 样 的 特征 。 

既然 人 工 的 方式 无 法 很 好 地 抽取 实体 中 的 特征 ， 那 么 是 和 否 有 自动 的 方式 呢 ? 答案 是 肯 
定 的 。 深 度 学 习 解 决 的 核心 问题 之 一 就 是 自动 地 将 简单 的 特征 组 合成 更 加 复杂 的 特征 ， 并 
使 用 这 些 组 合 特征 解决 问题 。 深 度 学 习 是 机 器 学 习 的 一 个 分 支 ， 它 除了 可 以 学 习 特 征 和 任 
务 之 间 的 关联 以 外 ， 还 能 自动 从 简单 特征 中 提取 更 加 复杂 的 特征 。 图 1-2 中 展示 了 深度 学 
习 和 传统 机 器 学 习 在 流程 上 的 差异 。 如 图 1-2 所 示 ， 深 度 学 习 算法 可 以 从 数据 中 学 习 更 加 
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复杂 的 特征 表达 ， 使 得 最 后 一 步 权重 学 习 变 得 更 加 简单 且 有 效 。 在 图 1-3 中 ， 展 示 了 通过 
深度 学 习 解 决 图 像 分 类 问题 的 具体 样 例 。 深 度 学 习 可 以 一 层 一 层 地 将 简单 特征 逐步 转化 成 
更 加 复杂 的 特征 ， 从 而 使 得 不 同类 别 的 图 像 更 加 可 分 。 比 如 图 1-3 中 展示 了 深度 学 习 算 法 
可 以 从 图 像 的 像素 特征 中 逐渐 组 合 出 线条 、 边 、 角 、 简 单 形状 、 复 杂 形 状 等 更 加 有 效 的 复 
杂 特 征 。 


传统 机 器 学 习 算法 区 人 工 特征 





基础 特征 ， 图片 像素 第 一 层 : 线条 ”第 二 层 : 简单 形状 。 第 三 层 : 复杂 形状 
图 1-3 深度 学 习 在 图 像 分 类 问题 上 的 算法 流程 样 例 


早期 的 深度 学 习 受 到 了 神经 科学 的 局 发 ， 它 们 之 间 有 非常 密切 的 联系 。 科 学 家 们 在 神 
经 科学 上 的 发 现 使 得 我 们 相信 深度 学 习 可 以 胜任 很 多 人 工 智能 的 任务 。 神 经 科学 家 发 现 ， 
如 果 将 小 白鼠 的 视觉 神经 连接 到 听觉 中 枢 , 一 段 时 间 之 后 小 鼠 可 以 习 得 使 用 听觉 中 枢 “ 看 ” 
世界 。 这 说 明 虽 然 哺 乳 动 物 大 脑 分 为 了 很 多 区 域 ， 但 这 些 区 域 的 学 习 机 制 却 是 相似 的 。 在 
这 一 假想 得 到 验证 之 前 ， 机 器 学 习 的 研究 者 们 通常 会 为 不 同 的 任务 设计 不 同 的 算法 。 而 且 
直到 今天 ， 学 术 机 构 的 机 器 学 习 领 域 也 被 分 为 了 目 然 语言 处 理 、 计 算 机 视觉 和 语音 识别 等 
不 同 的 实验 室 。 因 为 深度 学 习 的 通用 性 ， 深 度 学 习 的 研究 者 往往 可 以 路 越 多 个 研究 方 问 
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甚至 同时 活跃 于 所 有 的 研究 方向 。 下 面 的 1.3 节 将 具体 介绍 深度 学 习 在 不 同方 网 的 应 用 。 

虽然 深度 学 习 领 域 的 研究 人 员 相 比 其 他 机 器 学 习 领 域 更 多 地 受到 了 大 脑 工 作 原 理 的 局 
发 ， 而 且 媒 体 界 也 经 常 强调 深度 学 习 算 法 和 大 脑 工 作 原 理 的 相似 性 ， 但 现代 深度 学 习 的 友 
展 并 不 拘泥 于 模拟 人 脑 神经 元 和 人 脑 的 工作 机 理 。 模 拟人 类 大 脑 也 不 再 是 深度 学 习 研 究 的 
主导 方向 。 我 们 不 应 该 认为 深度 学 习 是 在 试图 模仿 人 类 大 脑 。 目 前 科学 家 对 人 类 大 脑 学 习 
机 制 的 理解 还 不 足以 为 当下 的 深度 学 习 模 型 提供 指导 。 

现代 的 深度 学 习 已 经 超越 了 神经 科学 观点 ， 它 可 以 更 广泛 地 适用 于 各 种 并 不 是 由 神经 
网 络 启发 而 来 的 机 器 学 习 框 架 。 值 得 注意 的 是 ， 有 一 个 领域 的 研究 者 试图 从 算法 层 理解 大 
脑 的 工作 机 制 ， 它 不 同 于 深度 学 习 的 领域 ,被 称 为 “计算 神经 学 ”( computational 
neuroscience )。 深 度 学 习 领 域 主要 关注 如 何 搭建 智能 的 计算 机 系统 ， 解 决 人 工 智能 中 志 到 
的 问题 。 计 算 神 经 学 则 主要 关注 如 何 建立 更 准确 的 模型 来 模拟 人 类 大 脑 的 工作 。 

总 的 来 说 ， 人 工 智 能 、 机 器 学 习 和 深度 学 习 是 非常 相关 的 几 个 领域 。 图 1-4 总 结 了 它 
们 之 间 的 关系 。 人 工 智能 是 一 类 非常 广泛 的 问题 ， 机 器 学 习 是 解决 这 类 问题 的 一 个 重要 手 
段 。 深 度 学 习 则 是 机 器 学 习 的 一 个 分 文 。 在 很 多 人 工 智 能 问题 上 上， 深度 学 习 的 方法 突破 了 
传统 机 器 学 习 方 法 的 瓶颈 ， 推 动 了 人 工 智 能 领域 的 发 展 。 





图 1-4 人 工 智能 、 机 器 学 习 以 及 深度 学 习 之 间 的 关系 图 
1.2 深 度 学 习 的 发 展 历程 


很 多 读者 可 能 会 认为 深度 学 习 是 一 门 新 技术 ， 所 以 昕 到 “深度 学 习 的 历史 ”也 许 会 有 
些 惊讶 。 事 实 上 ， 目 前 大 家 所 熟知 的 “深度 学 习 ” 基 本 上 是 深层 神经 网 络 的 一 个 代名词 ， 
而 神经 网 络 技术 可 以 退 溯 到 1943 年 。 深 度 学 习 之 所 以 看 起 来 像 是 一 门 新 技术 , 一 个 很 重要 
的 原因 是 它 在 21 世纪 初期 并 不 流行 。 神 经 网 络 的 发 展 史 大 致 可 以 分 为 三 个 阶段 , 在 本 节 中 ， 
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我 们 将 人 简单 介绍 神经 网 络 发 展 历史 上 的 这 三 个 阶段 。 

早期 的 神经 网 络 模 型 类 似 于 仿生 机 器 学 习 ， 它 试图 模仿 大 脑 的 学 习 机 理 。 最 早 的 神经 
网 络 数 学 模型 是 由 Warren McCulloch 教授 和 Walter Pitts 教授 于 1943 年 在 论文 4 logical 
calculus of the ideas immanent in nervous activity 中 提出 的 。 在 论文 中 , Warren McCulloch 教 
授 和 Walter Pitts 教授 模拟 人 类 大 脑 神 经 元 的 结构 提出 了 McCulloch-Pitts Neuron 的 计算 结 
构 。 图 1-5 对 比 了 人 类 神经 元 结构 和 McCulloch-Pitts Neuron 结构 。McCulloch-Pitts Neuron 
结构 大 致 模拟 了 人 类 神经 元 的 工作 原理 ， 它 们 都 有 一 些 输 入 ， 然 后 将 输入 进行 一 些 变换 后 
得 到 输出 结果 。 虽 然 人 类 和 神经 元 处 理 输入 信号 的 原理 目前 还 对 我 们 来 说 还 不 是 完全 清晰 ， 
但 McCulloch-Pitts Neuron 结构 使 用 了 简单 的 线性 加 权 和 的 方式 来 模拟 这 个 变换 , 将 n 个 输 
入 值 提供 给 McCulloch-Pitts Neuron 结构 后 ，McCulloch-Pitts_ Neuron 结构 会 通过 nn 个 权重 
Wi，W2,… Wn 来 计算 这 nn 个 输入 的 加 权 和 ， 然 后 用 这 个 加 权 和 经 过 一 个 阔 值 函数 得 到 一 个 0 
或 1 的 输出 。 





往 销 





细胞 术 
(a) 人 类 神经 元 结构 (b) McCulloch-Pitts Neuron 结构 


图 1-5 人 类 神经 元 结构 和 McCulloch-Pitts Neuron 结构 对 比 图 


举 一 个 具体 的 例子 来 说 明 McCulloch-Pitts Neuron 结构 是 如 何 解 决 实际 问题 的 。 假设 需 
要 解决 的 问题 是 判断 邮件 是 否 为 垃圾 邮件 ， 那 么 首先 可 以 将 从 邮件 里 提取 的 n 个 特征 值 作 
为 输入 传 入 McCulloch-Pitts Neuron 结构 。McCulloch-Pitts Neuron 结构 经 过 加 权 和 及 闭 值 函 
数 处 理 可 以 得 到 一 个 0 或 者 1 的 输出 。 如 果 这 个 输出 为 0， 那 么 相应 的 邮件 为 垃圾 邮件 ; 
相反 ， 如 果 这 个 输出 为 1， 那么 相应 的 邮件 不 是 垃圾 邮件 。 

为 了 使 这 种 方法 可 以 精确 地 判断 垃圾 邮件 , 我 们 需要 对 McCulloch-Pitts Neuron 结构 中 
的 权重 进行 特殊 的 设置 。 手 动 设置 这 些 权 重 目 然 是 一 种 选择 ， 但 通过 人 类 经 验 设 置 权 重 的 
方式 既 麻 烦 又 很 难 达到 最 优 的 效果 。 为 了 让 计算 机 能 够 更 加 自动 且 更 加 合理 地 设置 权重 大 
小 ，Frank Rosenblatt 教授 于 1958 年 提出 了 感知 机 模型 (perceptron)。 感 知 机 是 首 个 可 以 根 
据 样 例 数据 来 学 习 特征 权重 的 模型 。 虽然 McCulloch-Pitts Neuron 结构 和 感知 机 模型 极 大 地 


(GD McCulloch W, Pitts W. A Logical Calculus of the Ideas Immanent in Nervous Activity [J]. Bulletin of 
Mathematical Biophysics Vol $, 1943. 
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影响 了 现代 机 器 学 习 ， 但 是 它们 也 存在 非常 大 的 局 限 性 。 

1969 年 由 Marvin Minsky 教授 和 Seymour Papert 教授 出 版 的 Perceptrons: An Introduction 
to Computational Geometry 一 书 中 , 证 明了 感知 机 模型 只 能 解决 线性 可 分 问题 ， 第 4 章 中 将 
会 更 加 详细 地 介绍 线性 模型 、 线 性 可 分 问题 。 并 明确 指出 了 感知 机 无 法 解决 异 或 问题 。 而 
且 书 中 也 指出 在 当时 的 计算 能 力 下 ， 实 现 多 层 的 神经 网 络 是 不 可 能 的 事情 。 这 些 局 限 性 寻 
致 了 整个 学 术 界 对 生物 启发 的 机 器 学 习 模 型 的 择 击 。 在 书 中 ,Marvin Minsky 教授 和 Seymour 
Papert 教授 甚至 做 出 了 “基于 感知 机 的 研究 注定 将 失败 ”的 结论 。 这 导致 了 神经 网 络 的 第 
一 次 重大 低潮 期 ， 在 之 后 的 十 多 年 内 ， 基 于 神经 网 络 的 研究 几乎 处 于 停 沛 状态 。 

直到 20 世纪 80 年 代 末 ， 第 二 波 神 经 网 络 研究 因 分 布 式 知识 表达 (distributed 
representation ) 和 神经 网 络 反 向 传播 算法 的 提出 而 兴起 。 分 布 式 的 知识 表达 的 核心 思想 是 
现实 世界 中 的 知识 和 概念 应 该 通过 多 个 神经 元 (neuron) 来 表达 ， 而 模型 中 的 每 一 个 神经 
元 也 应 该 参与 表达 多 个 概念 。 例 如 ,假设 要 设计 一 个 系统 来 识别 不 同 颜色 不 同型 号 的 汽车 ， 
那么 可 以 有 两 种 方法 。 第 一 种 方法 是 设计 一 个 模型 使 得 模型 中 每 一 个 神经 元 对 应 一 种 颜色 
和 汽车 型 号 的 组 合 ， 比 如 “白色 的 小 轿车 ”。 如 果 有 n 种 颜色 ，m 种 型 号 ， 那 么 这 样 的 表达 
方式 需要 nxm 个 神经 元 。 男 一 种 方法 是 使 用 一 些 神 经 元 专门 表达 颜色 ， 比 如 “白色” 田 
外 一 些 神经 元 专门 表达 汽车 型 号 ， 比 如 “小 轿车 ”这 样 “白色 的 小 轿车 ”的 概念 可 以 通过 
这 两 个 神经 元 的 组 合 来 表达 。 这 种 方式 只 需要 n+m 个 神经 元 就 可 以 表达 所 有 概念 。 而 且 即 
使 在 训练 数据 中 没有 出 现 概念 “红色 的 卡车 ”只 要 模型 能 够 习 得 “红色 ”和 “卡车 ”的 概 
念 ， 它 也 可 以 推广 到 概念 “红色 的 卡车 ” 分 布 式 知识 表达 大 大 加 强 了 模型 的 表达 能 力 ， 让 
神经 网 络 从 宽度 的 方向 走向 了 深度 的 方 同 。 这 为 之 后 的 深度 学 习 莫 定 了 基础 。 在 第 4 章 中 
将 通过 具体 的 样 例 来 说 明 深 层 的 神经 网 络 是 可 以 很 好 地 解决 类 似 异 或 问题 等 线性 不 可 分 问 
题 的 。 

除了 解决 了 线性 不 可 分 问题 ， 在 20 世纪 80 年 代 末 ， 研 究 人 员 在 降低 训练 神经 网 络 的 
计算 复杂 度 上 也 取得 了 突破 性 成 就 。David Everett Rumelhart 教授 、Geoffrey Everest Hinton 
教授 和 Ronald J. Williams 教授 于 1986 年 在 目 然 杂 志 上 友 表 的 Learning Representations by 
Back-propagating errors 文章 中 首次 提出 了 反 向 传播 的 算法 (back propagation)， 此 算法 大 幅 
降低 了 训练 神经 网 络 所 需要 的 时 间 。 直 到 今天 ， 反 加 传播 算法 仍然 是 训练 神经 网 络 的 主要 
方法 。 在 神经 网 络 训 练 算法 改进 的 同时 ， 计 算 机 的 飞速 发 展 也 使 得 80 年 代 末 的 计算 能 力 相 
比 70 年 代 有 了 突飞猛进 的 增长 。 于 是 神经 网 络 在 80 年 末 到 90 年 代 初 又 迎 来 了 发 展 的 高 峰 
期 。 如 今 使 用 得 比较 多 的 一 些 神经 网 络 结 构 ， 比 如 卷 积 神经 网 络 和 循环 神经 网 络 ， 在 这 上 段 
时 间 都 得 到 了 很 好 的 发 展 。Sepp Hochreiter 教授 和 Juergen Schmidhuber 教授 于 1991 年 提出 
的 LSTM 模型 (long short-term memory) 可 以 有 效 地 对 较 长 的 序列 进行 建 模 ， 比 如 一 句 话 
或 者 一 段 文 章 。 直 到 今天 ，LSTM 都 是 解决 很 多 自然 语言 处 理 、 机 器 翻译 、 语 音 识 别 、 时 序 
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预测 等 问题 最 有 效 的 方法 。 在 第 8 章 中 将 更 加 详细 地 介绍 循环 神经 网 络 和 LSTM 模型 。 

然而 ， 在 神经 网 络 发 展 的 同时 ,传统 的 机 器 学 习 算 法 也 有 了 突破 性 的 进展 ， 并 在 90 年 
代 末 逐步 超越 了 神经 网 络 ， 成 为 当时 机 器 学 习 领域 最 常用 的 方法 。 以 手写 体 识别 为 例 ， 在 
1998 年 ， 使 用 支持 疝 量 机 (support vector machine〉 的 算法 可 以 把 错误 率 降低 到 0.8%。 这 
样 的 精确 度 是 当时 的 神经 网 络 无 法 达到 的 。 导 致 这 种 情况 主要 有 两 个 原因 。 首 先 ， 虽 然 训 
练 神经 网 络 的 算法 得 到 了 改进 ， 但 在 当时 的 计算 资源 下 ， 要 训练 深层 的 神经 网 络 仍然 是 非 
和 困难 的 。 其 次 ， 当 时 的 数据 量 比较 小 ， 无 法 满足 训练 深层 神经 网 络 的 需求 。 

随 着 计算 机 性 能 的 进一步 提高 ， 以 及 云 计 算 、GPU 的 出 现 ， 到 2010 年 左右 ， 计 算 量 
己 经 不 再 是 阻碍 神经 网 络 发 展 的 问题 。 与 此 同时 ， 随 着 互联 网 + 的 发 展 ， 获 取 海 量 数据 也 不 
再 困难 。 这 让 神经 网 络 所 面临 的 几 个 最 大 问题 都 得 到 解决 ， 于 是 神经 网 络 的 发 展 也 迎 来 了 
新 的 高 潮 。 在 2012 年 InageNet 举办 的 图 像 分 类 竞赛 (ImageNet Large Scale Visual 
Recognition Challenge, ILSVRC) 中 ,由 Alex Krizhevsky 教授 实现 的 深度 学 习 系 统 AlexNet 
说 得 了 冠军 。 自 此 之 后 ， 深 度 学 习 〈(deep learning) 作为 深层 神经 网 络 的 代名词 被 大 家 所 熟 
知 。 深 度 学 习 的 发 展 也 开局 了 一 个 AI 的 新 时 代 。 图 1-6 展示 了 “deep learning” 这 个 词 在 
最 近 十 年 谷歌 搜索 的 热度 趋势 。 从 图 中 可 以 看 出 ， 从 2012 年 之 后 ,深度 学 习 的 热度 呈 指 数 
级 上 升 ， 到 2016 年 时 ， 深 度 学 习 已 经 成 为 了 谷歌 上 最 热门 的 搜索 词 。 在 2013 年 ， 深 度 学 
习 被 麻 省 理工 (MIT) 评 为 了 年 度 十 大 科技 突破 之 一 "。 如 今 ， 深 度 学 习 已 经 从 最 初 的 图 像 
识别 领域 扩展 到 了 机 器 学 习 的 各 个 领域 。 下 面 的 1.3 节 将 具体 介绍 目前 深度 学 习 在 一 些 主 
要 人 工 智能 领域 的 应 用 。 
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图 1-6 “deep learning” 最 近 十 年 在 谷歌 搜索 的 热度 趋势 


(此 图 片 基 于 于 谷歌 趋势 : https:Wwww.google.comy/trends/， 词 汇 的 热度 按 0-100 分 为 100 个 等 级 : 
0 表示 最 低 的 热度 ，100 表示 最 流行 的 搜索 词 ) 


Q) 具体 报道 参见 : https://www.technologyreview.com/lists/technologies/2013/。 
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1.3 ”深度 学 习 的 应 用 


深度 学 习 最 早 兴 起 于 图 像 识 别 ， 但 是 在 短 短 几 年 时 间 内 ， 深 度 学 习 推广 到 了 机 器 学 习 
的 各 个 领域 。 如 今 ， 深 度 学 习 在 很 多 机 器 学 习 领 域 都 有 非常 出 色 的 表现 ， 在 图 像 识 别 、 语 
音 识别 、 音 频 处 理 、 自 然 语言 处 理 、 机 器 人 、 生 物 信息 处 理 、 化 学 、 电 脑 游 戏 、 搜 索引 擎 、 
网 络 广告 投放 、 医 学 自动 诊断 和 金融 等 各 大 领域 均 有 应 用 。 本 性 将 选取 几 个 深度 学 习 应 用 
比较 广泛 的 领域 进行 详细 的 介绍 。 但 深度 学 习 的 应 用 不 仅 限 于 本 节 中 所 介绍 的 领域 ， 在 每 
个 领域 中 的 应 用 也 不 限于 列举 出 的 几 个 方面 。 


1.3.1 计算 机 视觉 


计算 机 视觉 是 深度 学 习 技术 最 早 实 现 突破 性 成 就 的 领域 .在 1.2 节 中 介绍 过 , 随 着 2012 
年 深度 学 习 算 法 AlexNet 启 得 图 像 分 类 比赛 ILSVRC (ImageNet Large Scale Visual 
Recognition Challenge) 冠 军 , 深度 学 习 开 始 受 到 学 术 界 广泛 的 关注 .ILSVRC 是 基于 ImageNet 
图 像 数 据 集 举 办 的 图 像 识别 技术 比赛 ， 这 个 比赛 在 计算 机 视觉 领域 有 极 高 的 影响 力 。 

图 1-7 展示 了 历年 ILSVRC 比赛 的 情况 。 从 图 1-7 中 可 以 看 到 ， 在 深度 学 习 被 使 用 之 
前 ， 传 统计 算 机 视觉 的 方法 在 ImageNet 数据 集 上 最 低 的 Top5 错误 率 为 26%”。 从 2010 年 
到 2011 年 , 基于 传统 机 器 学 习 的 算法 并 没有 带 来 正确 率 的 大 幅 提升 ,在 2012 年 时 , Geoffrey 
Everest Hinton 教授 的 研究 小 组 利用 深度 学 习 技术 将 ImageNet 图 像 分 类 的 错误 率 大 幅 下 降 
到 了 16%。 而 且 ，AlexNet 深度 学 习 模 型 只 是 一 个 开始 ， 在 2013 年 的 比赛 中 ， 排 名 前 20 
的 算法 都 使 用 了 深度 学 习 。 从 2013 年 之 后 ，ILSVRC 上 基本 就 只 有 深度 学 习 算 法 参赛 了 。 

从 2012 年 到 2015 年 间 ， 通 过 对 深度 学 习 算 法 的 不 断 研究 ，ImageNet 图 像 分 类 的 错误 
率 以 每 年 4% 的 速度 递减 ,这 说 明 深 度 学 习 完 全 打破 了 传统 机 器 学 习 算 法 在 图 像 分 类 上 的 并 
贷 ， 让 图 像 分 类 问题 得 到 了 更 好 的 解决 。 如 图 1-7 所 示 ， 到 2015 年 时 ， 深 度 学 习 算 法 的 错 
误 率 为 4%， 已 经 成 功 超越 了 人 工 标注 的 错误 率 (5%)， 实 现 了 计算 机 视觉 研究 领域 的 一 个 
突破 。 

在 ImageNet 数据 集 上 ， 深 度 学 习 不 仅 突破 了 图 像 分 类 的 技术 瓶颈 ， 同 时 也 突破 了 物体 
识别 的 技术 瓶颈 。 物 体 识别 的 难度 比 图 像 分 类 更 高 。 图 像 分 类 问题 只 需 判断 图 片 中 包含 哪 
一 种 物体 。 但 在 物体 识别 问题 中 ， 需 要 给 出 所 包含 物体 的 具体 位 置 。 而 且 一 张 图 片 中 可 能 
出 现 多 个 需要 识别 的 物体 。 图 1-8 展示 了 ILSVRC2013 物体 识别 数据 集中 的 样 例 图 片 。 每 


QW 在 ImageNet 图 像 分 类 问题 上 ， 大 部 分 研究 都 使 用 Top5 错误 率 来 评价 模型 优 劣 。 第 6 章 将 更 加 详细 地 
介绍 ImageNet 数据 集 。 
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一 张 图 片 中 所 有 可 以 被 识别 的 物体 都 被 不 同 颜色 的 方 框 标注 了 出 来 。 在 2013 年 时 , 使 用 传 
统 机 器 学 习 算法 可 以 达到 的 MAP (mean average precision)“ 值 为 0.23。2016 年 时 ， 使 用 了 
6 种 不 同 深 度 学 习 模 型 的 集成 算法 〈ensemble algorithm) 成 功 将 MAP 提高 到 了 0.66®。 





Se 人 芋 标 注 错 误 它 
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图 1-8 ILSVRC2013 物体 识别 数据 集中 的 样 例 图 片 @ 


在 技术 革新 的 同时 ， 工 业界 也 将 图 像 分 类 、 物 体 识别 应 用 于 各 种 产品 中 了 。 在 谷歌 ， 
图 像 分 类 、 物 体 识 别 技术 已 经 被 广泛 应 用 于 谷歌 无 人 驾驶 车、YouTube、 谷 歌 地 图 、 谷 歌 图 
像 搜索 等 产品 中 。 图 1-9 中 展示 了 使 用 谷歌 图 像 搜 索 来 辨别 动物 。 谷 歌 通过 图 像 处理 技 术 
可 以 归纳 出 图 片 中 的 主要 内 容 并 实现 以 图 搜 图 的 功能 。 这 些 技术 在 国内 的 百度 、 阿 里 、 腾 
讯 等 科技 公司 也 已 经 得 到 了 广泛 的 应 用 。 


GD http://image-net.org/challenges/LSVRC/2013/index#task 中 有 更 多 关于 ILSVRC2013 物体 识别 数据 集 的 介绍 。 
@ 数字 出 自 ILSVRC 官网 : http://image-net.org/challenges/LSVRC/2016/results 。 
@) 图 片 来 自 于 ILSVRC 官网 : http://image-net.org/challenges/LSVRC/2013/。 
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Image Size: 
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| About 20,500,000 resulls (1.43 seconds) 
| 
| 282 x 179 


Find other sizes of this image: 
All sizes - Large 








ne 


(a) 在 谷歌 图 片 搜 索 中 提供 一 张 哈士奇 〈 一 种 狗 ) 的 图 片 ， 得 到 的 结果 为 “husky with blue eyes〈 蓝 色 眼 睛 的 哈 士 
奇 )”。 虽 然 从 图 片 中 无 法 确认 眼睛 是 否 为 蓝 色 ， 但 是 谷歌 可 以 非常 精确 的 识别 出 狗 的 品种 。 
























ES 
= 
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2jpg :< wolf public domain OO 





Al Imayes Maps Shopping More Y Search tools 





About 25,270,000,000D resujts {06.95 saeconds) 


image size: 
275 x 183 


Find other sizes of this image: 
All sizes - Medium - Large 






Best guess for this image: wolf public domain 


(b) 在 谷歌 图 片 搜索 中 提供 一 张 狼 的 图 片 ， 得 到 的 结果 为 “wolfpublic domain( 旷 野 上 的 狼 )”。 虽然 这 张 图 片 和 (a) 
中 哈士奇 的 图 片 非常 接近 ， 但 是 谷歌 可 以 非常 精确 的 识别 动物 的 种 类 。 


图 1-9 通过 谷歌 图 像 搜 索 识别 动物 


在 物体 识别 问题 中 ， 人 脸 识别 是 一 类 应 用 非常 广泛 的 技术 。 它 既 可 以 应 用 于 娱乐 行业 ， 
也 可 以 应 用 于 安防 、 风 控 行 业 。 在 娱乐 行业 中 ， 基 于 人 脸 识 别 的 相机 目 动 对 焦 、 目 动 美 颜 
基本 已 经 成 为 每 一 于 自拍 软件 的 必 备 功能 。 在 安防 、 风 控 领 域 ， 人 脸 识别 应 用 更 是 大 大 提 
高 了 工作 效率 并 节省 了 人 力 成 本 。 比 如 在 互联 网 金融 行业 ， 为 了 控制 贷款 风险 ， 在 用 户 注 
册 或 者 贷款 发 放 时 需要 验证 本 人 信息 。 个 人 信息 验证 中 一 个 很 重要 的 步骤 是 验证 用 户 提 供 
的 证 件 和 用 户 是 同一 个 人 。 通 过 人 脸 识别 技术 ， 这 个 过 程 可 以 被 更 加 高 效 地 实现 。 

在 深度 学 习 得 到 广泛 应 用 之 前 ， 基 于 传统 的 机 器 学 习 技术 并 不 能 很 好 地 满足 人 脸 识别 
的 精度 要 求 。 人 脸 识别 的 最 大 挑战 在 于 不 同人 脸 的 差异 较 小 ， 有 时 同一 个 人 在 不 同 光照 条 
件 、 姿 态 或 者 表情 下 脸 部 的 差异 甚至 会 比 不 同人 脸 之 间 的 差异 更 大 。 传 统 的 机 器 学 习 算法 
很 难 抽象 出 足够 有 效 的 特征 ， 使 得 学 习 模 型 既 可 以 区 分 不 同 的 个 体 ， 又 可 以 尽量 减少 相同 
个 体 在 不 同 环境 中 的 变化 。 深 度 学 习 技术 通过 从 海量 数据 中 自动 习 得 更 加 有 效 的 人 脸 特征 
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表达 , 可 以 很 好 地 解决 这 个 问题 。 在 人 脸 识 别 数 据 集 LFW” (Labeled Faces in the Wild) 上 ， 
基于 深度 学 习 算法 的 系统 DeepID2 可 以 达到 99.47% 的 识别 率 。 

在 计算 机 视觉 领域 ， 光 学 字符 识别 (optical character recognition，OCR) 也 是 使 用 深度 
学 习 较 早 的 领域 之 一 。 所 谓 光 学 字符 识别 ， 就 是 使 用 计算 机 程序 将 计算 机 无 法 理解 的 图 片 中 
的 字符 ， 比 如 数字 、 字 母 、 汉 子 等 符号 ， 转 化 为 计算 机 可 以 理解 的 文本 格式 。 早 在 1989 年 ， 
Yann LeCun 教授 发 表 的 论文 Backpropagation Applied io Handwritten Zip Code Recognition 将 
卷 积 神经 网 络 成 功 应 用 到 了 识别 手写 邮政 编码 的 问题 上 上， 达到 了 接近 95% 的 正确 率 。 在 
MNIST 手写 体 数 字 识 别 数 据 集 上 ， 最 新 的 深度 学 习 算法 可 以 达到 99.77% 的 正确 率 ， 这 也 
超过 了 人 类 的 表现 。 第 5 章 将 更 加 详细 地 介绍 MNIST 手写 体 数字 识别 数据 集 。 

光学 字符 识别 在 工业 界 的 应 用 也 十 分 广泛 。 在 21 世纪 初期 ，Yann LeCun 教授 将 基于 
卷 积 神经 网 络 的 手写 体 数字 识别 系统 应 用 于 银行 支票 的 数额 识别 , 这 个 系统 在 2000 年 左右 
已 经 处 理 了 美国 全 部 支票 数量 的 10%~20%”。 人 谷歌 也 将 数字 识别 技术 用 在 了 谷歌 地 图 的 开 
发 中 。 谷 歌 实现 的 数字 识别 系统 可 以 从 谷歌 街景 图 中 识别 任意 长 度 的 数字 ， 并 在 SVHN 数 
据 集 * 上 可 以 达到 96% 的 正确 率 ”。 到 2013 年 为 止 这 个 系统 已 经 帮助 谷歌 抽取 了 超过 1 
亿 个 门牌 号 码 ， 大 大 加 速 了 谷歌 地 图 的 制作 过 程 并 节省 了 巨额 的 人 力 成 本 。 而 且 ， 光 学 字 
符 识 别 技术 在 谷歌 的 应 用 也 不 仅 限 于 数字 识别 。 谷 歌 图 书 通过 文字 识别 技术 将 扫描 的 图 书 
数字 化 ， 从 而 实现 图 书 内 容 的 搜索 功能 。 


1.3.2 语音 识别 


深度 学 习 在 语音 识别 领域 取得 的 成 绩 也 是 突破 性 的 。2009 年 深度 学 习 的 概念 被 引入 语 
音 识别 领域 , 并 对 该 领域 产生 了 巨大 的 影响 。 在 短 短 几 年 时 间 内 , 深度 学 习 的 方法 在 TIMIT 
数据 集 8 上 将 基于 传统 的 混合 高 斯 模型 〈gaussian mixture model，GMM) 的 错误 率 从 21.7% 
降低 到 了 使 用 深度 学 习 模 型 的 17.9%。 如 此 大 的 提高 幅度 很 快 引起 了 学 术 界 和 工业 界 的 广 
泛 关 注 。 从 2010 年 到 2014 年 间 ， 在 语音 识别 领域 的 两 大 学 术 会 议 IEEE-ICASSP 和 


G@ 更 多 关于 人 脸 识别 数据 集 LFW 的 信息 可 以 参考 其 官方 网 站 : http://vis-www.cs.umass.edw/lfw/。 

@ 数字 出 自 Yann LeCun 教授 在 CERN 研讨 会 上 的 报告 Deep Learning and the Future of 41。 报告 资料 可 以 
参考 : https://indico.cern.ch/event/510372/。 

@ SVHN 数据 集 是 斯 坦 福 大 学 开源 的 数据 集 ， 更 多 关于 该 数据 的 信息 可 以 参考 其 官方 网 站 : 
http://ufldl.stanford.edu/housenumbers/。 

由 数字 参见 : Goodfellow IJ Bulatov Y, Ibarz J], et al. Multi-digit Number Recognition from Street View Imagery 
using Deep Convolutional Neural Networks [J]. Computer Science, 2013. 


@@ 更 多 关于 TIMIT 数据 集 的 信息 可 以 参考 其 官方 网 站 : https://catalog.ldc.upenn.edu/ldc93s1。 
13 
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Interspeech 上 ， 深 度 学 习 的 文章 呈现 出 逐年 递增 的 趋势 。 在 工业 界 ， 包 括 谷 歌 、 苹 果 、 微 
软 、IBM、 百度 等 在 内 的 国内 外 大 型 IT 公司 提供 的 语音 相关 产品 , 比如 谷歌 的 Google Now、 
苹果 的 Siri、 微 软 的 Xbox 和 Skype 等 ， 都 是 基于 深度 学 习 算 法 。 

在 2009 年 谷歌 局 动 语音 识别 应 用 时 ， 使 用 的 是 在 学 术 界 已 经 研究 了 30 年 的 混合 高 斯 
模型 。 到 2012 年 时 ， 深 度 学 习 的 语音 识别 模型 已 经 取代 了 混合 高 斯 模型 ， 并 成 功 将 谷歌 语 
音 识别 的 错误 率 降低 了 20%， 这 个 改进 幅度 超过 了 过 去 很 多 年 的 总 和 。 微 软 的 研究 人 员 通 
过 大 量 实 验 得 出 ， 使 用 深度 学 习 的 算法 比 使 用 混合 高 斯 模型 的 算法 更 能 够 从 海量 数据 中 获 
益 。 随 看 数据 量 的 加 大 ， 使 用 深度 学 习 模型 无 论 在 正确 率 的 增长 数值 上 还 是 在 增长 比率 上 
都 要 优 于 使 用 混合 高 斯 模型 的 算法 ”。 这 样 的 增长 在 语音 识别 的 历史 上 是 从 未 出 现 过 的 , 而 
深度 学 习 之 所 以 能 完成 这 样 的 技术 突破 ， 最 主要 的 原因 是 它 可 以 自动 地 从 海量 数据 中 提取 
更 加 复杂 且 有 效 的 特征 ， 而 不 是 如 高 斯 混合 模型 中 需要 人 工 提取 特征 。 

基于 深度 学 习 的 语音 识别 已 经 被 应 用 到 了 各 个 领域 ， 其 中 最 被 大 家 所 熟知 的 应 该 是 全 
果 公 司 推 出 的 Siri 系统 。Siri 系统 可 以 根据 用 户 的 语音 输入 完成 相应 的 操作 功能 ,这 大 大 方 
便 了 用 户 的 使 用 。 目 前 ，Siri 已 经 支持 包括 中 文 在 内 的 20 种 不 同 语言 。 与 Siri 类 似 ， 谷 歌 
也 在 安 持 《Android) 系统 上 推出 了 谷歌 语音 搜索 (Google Voice Search )。 另 外 一 个 成 功 应 
用 语音 识别 的 系统 是 微软 的 同 声 传译 系统 。 在 2012 年 的 微软 亚洲 研究 院 (Microsoft Research 
Asia，MSRA) 二 十 一 世纪 计算 大 会 (21st Century Computing) 上 ， 微 软 高 级 副 总 裁 Richard 
Rashid 现场 演示 了 微软 开发 的 从 英语 到 汉语 的 同 声 传译 系统 ”。 该 演讲 受到 了 非常 广泛 的 关 
注 ， 在 YouTube 网 站 上 已 经 有 超过 一 百 万 次 的 播放 量 。 同 声 传译 系统 不 仅 要 求 计算 机 能 
对 输入 的 语音 进行 识别 ， 它 还 要 求 计算 机 将 识别 出 来 的 结果 翻译 成 另外 一 门 语 言 ， 并 将 翻 
详 好 的 络 采 通过 语音 合成 的 方式 输出 。 在 没有 深度 学 习 之 前 ， 要 完成 同 声 传 译 系统 中 的 任 
意 一 个 部 分 都 是 非常 困难 的 。 而 随 着 深度 学 习 的 发 展 ， 语 音 识别 、 机 器 翻译 以 及 语音 合 
都 实现 了 巨大 的 技术 突破 。 如 今 ， 微 软 研 发 的 同 声 传译 系统 已 经 被 成 功 地 应 用 到 了 Skype 
网 络 电话 中 。 


1.3.3” 目 然 语 言 处 理 


深度 学 习 在 目 然 语言 处 理 领 域 的 应 用 也 同样 广泛 。 在 过 去 的 几 年 中 ， 深 度 学 习 已 经 在 


GD 参见 :LiD. Achievements and Challenges of Deep Learning [J]. Apsipa Transactions on Signal & Information 
Processing, 2015. 
@ 演讲 视频 地 址 为 http://v.youku.com/v_show/id XNDcyOTUwNjMy.html。 
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语言 模型 (language modeling)、 机 器 翻译 、 词 性 标注 (part-of-speech tagging)、 实 体 识 别 
(named entity recognition，NER)、 情 感 分 析 (sentiment analysis)、 广 告 推荐 以 及 搜索 排序 
等 方向 上 取得 了 突出 成 就 。 与 深度 学 习 在 计算 机 视觉 和 语音 识别 等 领域 的 突破 类 似 ， 深 度 
学 习 在 自然 语言 处 理 问题 上 的 突破 也 是 能 够 更 加 智能 、 目 动 地 提取 复杂 特征 。 在 自然 语言 
处 理 领域 ， 使 用 深度 学 习 实 现 智 能 特征 提取 的 一 个 非常 重要 的 技术 是 单词 辣 量 (word 
embedding)。 单 词 向 量 是 深度 学 习 解 决 很 多 上 述 自然 语言 处 理 问 题 的 基础 。 

在 自然 语言 处 理 领域 ， 一 个 非常 棘手 的 问题 在 于 目 然 语言 中 有 很 多 词 表 达 了 相近 的 意 
思 ， 比 如 “ 狗 ” 和 “ 犬 ” 就 几乎 表达 了 同样 的 意思 。 然 而 “ 狗 ” 和 “ 犬 ” 的 编码 在 计算 机 
中 可 能 差别 很 大 ， 所 以 计算 机 就 无 法 很 好 地 理解 目 然 语 言 所 表达 的 语义 。 为 了 解决 这 个 问 
题 ， 研 究 人 员 人 工 建 立 了 大 量 的 语料库 。 通 过 这 些 语料库 ， 可 以 大 致 刻画 目 然 语 言 中 单词 
之 间 的 关系 。 在 建立 好 的 语料库 中 ，WordNete2、ConceptNete 和 FrameNete 是 其 中 影响 力 比 
较 大 的 几 个 。 然 而 语料库 的 建立 需要 花费 很 多 人 力 物 力 ， 而 且 扩展 能 力 有 限 。 单 词 癌 量 提 
供 了 一 种 更 加 灵活 的 方式 来 刻画 单词 的 语义 。 

单词 向 量 会 将 每 一 个 单词 表示 成 一 个 相对 较 低 维度 的 同 量 (比如 100 维 或 200 维 )。 对 
于 语义 相近 的 单词 ， 其 对 应 的 单词 向 量 在 空间 中 的 距离 也 应 该 接近 。 于 是 单词 语义 上 的 相 
似 度 可 以 通过 空间 中 的 距离 来 描述 。 单 词 癌 量 不 需要 通过 人 工 的 方式 设 定 ， 它 可 以 从 互联 
网 上 海量 非 标 注 文本 中 学 习 得 到 。 使 用 斯 坦 福 大 学 开源 的 GloVe 单词 向 量 可 以 得 到 与 单词 
“frog (青蛙 )” 所 对 应 的 单词 癌 量 最 相似 的 $ 个 单词 分 别 是 “frogs (青蛙 复数 )”“toad〔( 蜂 
内 )” “itoria 〈 雨 滨 蛙 属 ) 六 “leptodactylidae 〈 细 趾 蟾 科 )” 和 “rana《〈 中 国 林 蛙 )”。 从 这 
个 样 例 可 以 看 出 ， 单 词 问 量 可 以 非常 有 效 地 刻画 单词 的 语义 。 通 过 单词 同 量 还 可 以 进行 单 
词 之 间 的 运算 。 比 如 用 单词 “king” 所 代表 的 同 量 减 去 单词 “man” 所 代表 的 同 量 得 到 的 结 
果 向 量 和 单词 “queen” 减 去 “woman” 得 到 的 结果 问 量 相 似 。 这 说 明 在 单词 同 量 中 ， 已 经 
隐 含 了 表达 性 别 的 概念 。 


(QD 参见 : Mikolov T Sutskever I, Chen K, et al. Distributed Representations of Words and Phrases and their 
Compositionality [J]. Advances in Neural Information Processing Systems, 2013,.26.. 

@ 参见 : Collobert R, Weston J, Bottou L, et al. Natural Laneuage Processing (Almost) from Scratch [J]. Journal 
of Machine Learning Research, 2011. 

@ 更 多 关于 WordNet 的 资料 可 以 参考 其 官方 网 站 : https://wordnet.princeton.edu/。 

由 更 多 关于 ConceptNet 的 资料 可 以 参考 其 官方 网 站 : http://conceptnet5.media.mit.edu/。 

@ 更 多 关于 FrameNet 的 资料 可 以 参考 其 官方 网 站 : https://framenet.icsi.berkeley.edu/fndrupal/。 

@ 具体 关于 GloVe 的 介绍 可 以 参考 其 官方 网 站 : http://nlp.stanford.edu/projects/glove/。 
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通过 对 自然 语言 中 单词 更 好 地 抽象 与 表达 ， 深 度 学 习 在 自然 语言 处 理 的 很 多 核心 问题 
上 都 有 突破 性 的 进展 。 机 器 翻译 就 是 其 中 的 一 个 例子 。 图 1-10 展示 了 谷歌 翻译 提供 的 传统 
算法 和 深度 学 习 算 法 翻译 不 同 语言 对 的 质量 对 比 图 。 从 图 1-10 可 以 看 出 ,在 所 有 的 语言 
上 ， 深 度 学 习 算 法 都 可 以 大 幅度 提高 翻译 的 质量 。 根 据 谷 歌 的 实验 结果 ， 在 主要 的 语言 对 
上 ， 使 用 深度 学 习 可 以 将 机 器 翻译 算法 的 质量 提高 55% 到 85%。 表 1-1 对 比 了 不 同 算法 翻 
详 同 一 句 话 的 结果 。 从 表 中 可 以 直观 地 看 到 深度 学 习 算法 带 来 翻译 质量 的 提高 。 在 2016 年 
9 月 ， 谷 歌 正 式 上 线 了 基于 深度 学 习 的 中 译 英 软件 。 现 在 在 谷歌 翻译 产品 中 ， 已 经 有 8 种 
语言 是 由 基于 深度 学 习 的 翻译 算法 完成 的 。 


ER Ss 
英语 -> 法 语 英语 -> 中 文 西班牙 语 -> 英语 


兰芝 于 传统 机 器 学 习 算法 表现 。 备 些 于 深度 学 习 算 法 来 现 上 人 工 表现 





图 1-10 不 同 翻译 算法 在 不 同 语言 上 的 翻译 质量 (其 中 0 表示 最 低 的 质量 ，6 表示 最 好 的 质量 ) 


表 1-1 不 同 翻 译 算法 的 翻译 效果 对 比 表 2 
中 文 原名 李克强 此 行将 启动 中 加 总 理 年 度 对 话机 制 , 与 加 拿 大 总 理 杜 鲁 多 举行 两 国 总 理 首次 年 度 对 话 。 


基于 传统 机 器 学 习 算 法 的 | LiKeqiang premier added this line to start the annual dialogue mechanism with the Canadian Prime 
翻译 结果 Minister Trudeau two prime ministers held its first annual session. 


Li Keqiang will initiate the annual dialogue mechanism between premiers of China and Canada 


原 乌 
名 2 六 人 
基于 深度 学 习 算 法 的 翻译 | Li Keqiang will start the annual dialogue mechanism with Prime Minister Trudeau of Canada and 
结果 hold the first annual dialogue between the two premiers. 
果 


人 工 翻译 结 





during this visit, and hold the first annual dialogue with Premier Trudeau of Canada. 


Q 数字 出 自 谷 歌 技 术 博 客 : https://research.googleblog.com/2016/09/a-neural-network-for-machine.html。 
@ 此 表 中 数据 出 自 谷 歌 技术 博客 : https://research.googleblog.com/2016/09/a-neural-network-for-machine.html。 
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第 1 章 深度 学 习 简介 


情感 分 析 是 自然 语言 处 理 问题 中 男 外 一 个 非常 经 典 的 应 用 。 情 感 分 析 最 核心 的 问题 就 
是 从 一 段 自 然 语言 中 判断 作者 对 评价 的 主体 是 好 评 还 是 差 评 。 情 司 分 析 在 工业 界 有 着 非 常 
广泛 的 应 用 。 随 着 互联 网 的 发 展 ， 用 户 会 在 各 种 不 同 的 地 方 表 达 对 于 不 同 产 品 的 看 法 。 对 
于 服务 行业 或 者 制造 业 ， 及 时 掌握 用 户 对 其 产品 或 者 服务 的 评价 是 提高 用 户 满意 度 非常 有 
效 的 途径 。 在 金融 行业 ， 通 过 分 析 用 户 对 不 同 产品 和 公司 的 态度 可 以 对 投资 选择 提供 帮助 。 
Derwent Capital Markets 于 2012 年 5 月 正式 上 线 ， 它 是 世界 首 家 通过 对 社交 网 络 Twitter 上 
推 文 进行 情感 分 析 来 指导 证 券 交易 "的 对 冲 基金 公司 。 在 同年 8 月 的 一 份 调查 中 显示 , 该 公 
司 的 平均 收益 率 1.85% 远 远 超过 了 平均 0.76% 的 收益 率 。 类 似 的 ， 也 有 研究 表明 ， 在 政治 
选举 中 ， 通 过 对 Twitter 上 推 文 情 感 分 析 得 出 的 结果 和 通过 传统 的 调查 、 投 票 等 方法 得 出 的 
结果 高 度 一 致 >。 在 情感 分 析 问 题 上 ， 深 度 学 习 也 可 以 大 幅 提 高 算法 的 准确 率 。 在 斯 坦 福 大 
学 开源 的 Sentiment Treebank 数据 集 上 %, 使 用 深度 学 习 的 算法 可 以 将 语句 层面 的 情感 分 析 正 确 
率 从 80% 提 高 到 85.4%。 在 短语 层面 上 ， 使 用 深度 学 习 的 算法 可 以 将 正确 率 从 71% 提 高 到 
80.7% 。 


1.3.4 人 机 博 奔 


如 果 说 深度 学 习 在 图 像 识 别 领 域 上 的 突破 掀起 了 学 术 界 的 研究 浪潮 ， 那 么 深度 学 习 在 
人 机 博弈 上 的 突破 使 得 这 个 概念 被 全 社会 所 熟悉 。 在 北京 时 间 2016 年 3 月 15 日 的 下 午 ， 
谷歌 开发 的 围棋 人 工 智能 系统 AlphaGo 以 总 比分 4: 1 战胜 了 韩国 棋 手 李 世 石 ， 成 为 第 一 
个 在 19x19 棋盘 上 战胜 人 类 围棋 冠军 的 智能 系统 。 虽 然 AlphaGo 不 是 第 一 个 战胜 人 类 世界 
冠军 的 系统 ， 但 AlphaGo 的 胜利 绝对 是 人 工 智能 历史 上 的 一 座 里 程 碑 。 在 1997 年 IBM 的 
智能 国际 象棋 系统 深蓝 〈deep blue) 击败 世界 冠军 卡 斯 帕 罗 夫 时 ， 所 依赖 的 更 多 是 计算 机 
的 计算 资源 ， 是 通过 暴力 搜索 (brute-force) 的 方式 尝试 更 多 的 下 棋 方 法 从 而 战胜 人 类 。 然 


GD 参见 : Bollen J Mao H, Zeng X. Twitter mood predicts the stock market [J]. Journal of Computational 
Science, 2010. 

@ 参见 : O'Connor B, Balasubramanyan R, Routledge B R, et al. From Tweets to Polls: Linking Text Sentiment 
to Public Opinion Time Series [Cl]// International Conference on Weblogs and Social Media, ICWSM 2010， 
Washington, Dc, Usa, May. DBLP 2010. 

@@ http://nlp.stanford.edu/sentiment/ 中 给 出 了 更 多 关于 Sentiment Treebank 的 信息 。 

由 Socher R, Perelygin A, Wu J Y, et al. Recursive deep models for semantic compositionality over a sentiment 
treebank[J]. 2013. 
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TensorFlow: 实战 Google 深度 学 习 框 架 
而 这 种 方式 在 围棋 上 是 完全 不 适用 的 ， 因 为 搜索 围棋 下 子 方法 的 复杂 度 为 10“， 而 国际 象 
棋 只 有 10“。 

为 了 战胜 人 类 围棋 世界 冠军 ，AlphaGo 需要 使 用 更 加 智能 的 方式 。 深 度 学 习 技术 为 这 
种 方式 提供 了 可 能 。AlphaGo 主要 是 由 三 个 部 分 组 成 ,他们 分 别 是 绽 特 卡 罗 树 搜索 (Monte 
Carlo tree search，MCTS)、 估 值 网 络 (value network) 和 走 棋 网 络 (policy network)。 蒙 特 
卡 罗 树 搜索 算法 实现 了 对 不 同 落 子 点 的 搜索 ， 不 过 和 之 前 的 纯 暴 力 搜索 不 同 ，AlphaGo 中 
使 用 的 蒙特 卡 罗 树 会 根据 估 值 网 络 和 走 棋 网 络 对 落 子 后 局 势 的 评判 结果 来 更 加 智能 地 寻找 
最 佳 落 子 点 。 

AlphaGo 月 后 真正 的 大 脑 是 估 值 网 络 和 走 棋 网 络 ， 而 这 两 个 组 件 都 是 通过 深度 学 习 实 
现 的 。 走 棋 网 络 解决 的 问题 是 给 定 当 前 棋盘 ， 预 测 下 一 步 应 该 在 哪 落 子 。 通 过 在 大 量 人 类 
围棋 高 手 对 弃 的 棋谱 获取 的 训练 数据 ， 走 棋 网 络 能 够 以 57% 的 准确 率 预 测 人 类 围棋 高 手下 
一 步 的 落 子 点 。 然 而 ， 仅 仅 预测 人 类 高 手 的 落 子 方法 是 不 够 的 ， 为 了 能 够 战胜 人 类 冠军 ， 
走 棋 网 络 还 通过 目 己 跟 上 自己 对 歼 的 方式 来 进一步 提高 落 子 水 平 。AlphaGo 的 另外 一 个 大 脑 
是 信 值 网 络 ， 它 解决 的 问题 是 给 定 当 前 的 棋盘 ， 判 断 黑 棋 启 的 概率 。 训 练 估 值 网 络 所 使 用 
的 数据 就 是 落 子 网 络 自己 和 自己 对 界 时 产生 的 。 通 过 模特 卡 罗 树 搜索 的 方法 将 走 棋 网 络 和 估 
值 网 络 这 两 个 大 脑 有 机 地 结合 ，AlphaGo 才 最 终 以 悬殊 的 比分 战胜 了 人 类 的 围棋 世界 冠军 。 

AlphaGo 战神 人 类 世界 冠军 不 是 人 机 博 研 的 终点 ， 相 反 ， 这 只 是 一 个 开始 。AlphaGo 
的 开发 团队 DeepMind 最 近 又 宣布 了 他 们 的 下 一 个 目标 一 一 星际 争霸 2”。 星 际 争霸 2 是 暴 
雪 公 司 (Blizzard)〉 开发 的 一 款 即 时 战略 游戏 。 在 游戏 中 ， 玩 家 需要 六 集 资源 、 建 造 建筑 、 
生产 战斗 单位 来 消灭 对 方 玩家 。 相 比 围棋 ， 星 际 争霸 2 对 于 人 工 智能 系统 设计 的 难度 又 有 
引 数 级 的 提高 。 首 先 ， 围 棋 的 落 子 方式 虽然 多 ， 但 也 是 有 限 的 。 而 人 工 智能 操作 星际 争霸 
2 时 ， 在 任意 一 个 时 刻 ， 人 工 智能 系统 需要 同时 〈 几 乎 同时 ) 操作 多 个 不 同 单位 ， 而 且 操 
作 的 方式 是 完全 开放 的 ， 几 乎 没有 限制 ， 所 以 确定 这 些 操作 很 难 通过 搜索 完成 。 其 次 ， 星 
际 争 霸 2 是 一 个 信息 不 对 称 的 系统 。 下 围棋 时 对 奔 双 方 看 到 的 棋盘 都 是 一 样 的 ， 而 星际 争 
霸 2 中 每 个 玩家 只 能 看 到 自己 的 地 盘 ， 这 要 求人 工 智 能 系统 对 “局 势 ” 做 出 判断 。 第 三 ， 
星际 争霸 2 是 即时 对 战 游戏 ， 需 要 计算 机 在 很 短 的 时 间 内 做 出 判断 ， 这 对 人 工 智 能 系统 的 
计算 速度 有 很 高 的 要 求 。 如 今 暴 雪 公 司 已 经 正式 开始 了 与 DeepMind 团队 的 合作 ， 并 将 在 
不 久之 后 开放 专门 为 人 工 智 能 研究 设计 的 星际 争霸 2 的 API。 在 星际 争霸 2 上 上， 人工 智能 
何 时 能 战胜 人 类 ， 我 们 将 拭目以待 。 





QD 具体 报道 参见 :https://deepmind.com/blog/deepmind-and-blizzard-release-starcraft-ii-ai-research-environment/。 
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1.4 深度 学 习 工 具 介 绍 和 对 比 


在 上 面 的 章节 中 已 经 介绍 了 深度 学 习 的 概念 以 及 历史 ， 并 给 出 了 不 少 成 功 应 用 深度 学 
习 的 样 例 。 然 而 ， 要 将 滩 度 学 习 更 快 且 更 便捷 地 应 用 于 新 的 问题 中 ， 选 择 一 款 深 度 学 习 工 
具 是 必 不 可 少 的 步骤 。 这 一 节 将 介绍 深度 学 习 工 具 TensorFlow 的 主要 功能 和 特点 ， 并 将 对 
比 TensorFlow 和 其 他 主流 的 开源 深度 学 习 工 具 , 给 出 本 书 选择 TensorFlow 作为 主要 介绍 对 
” 象 的 依据 。TensorFlow 是 谷歌 于 2015 年 11 月 9 日 正式 开源 的 计算 框架 。TensorFlow 计算 
框架 可 以 很 好 地 支持 深度 学 习 的 各 种 算法 ， 但 它 的 应 用 也 不 限于 深度 学 习 。 因 为 本 书 的 重 
点 是 介绍 使 用 TensorFlow 实现 深度 学 习 算 法 , 所 以 本 书 中 将 略 去 TensorFlow 对 于 其 他 算法 
的 支持 ， 感 兴趣 的 读者 可 以 在 TensorFlow 的 官方 教程 https:/www.tensorflow.org/tutorials 上 
找到 更 多 通过 TensorFlow 实现 非 深 度 学 习 算 法 的 样 例 。 

TensorFlow 是 由 Jeff Dean 领头 的 谷歌 大 脑 团 队 基 于 谷歌 内 部 第 一 代 深 度 学 习 系统 
DistBelief 改进 而 来 的 通用 计算 框架 。DistBelief 是 谷歌 2011 年 开发 的 内 部 深度 学 习 工 具 ， 
这 个 工具 在 谷歌 内 部 已 经 获得 了 巨大 的 成 功 。 基 于 DistBelief 的 ImageNet 图 像 分 类 系统 
Inception 模型 赢得 了 ImageNet2014 年 的 比赛 (ILSVRC) “”。 通 过 DistBelief， 谷 歌 在 海量 
的 非 标注 YouTube 视屏 中 习 得 了 “ 猫 ” 的 概念 ， 并 在 谷歌 图 片 中 开创 了 图 片 搜索 的 功能 。 
使 用 DistBelief 训练 的 语音 识别 模型 成 功 将 语音 识别 的 错误 率 降低 了 25%。 在 一 次 BBC 采 
访 中 ， 当 时 的 谷歌 首席 执行 官 Eric Schmidt 表示 这 个 提高 比率 相当 于 之 前 十 年 的 总 和 ”。 

虽然 DistBelief 已 经 被 谷歌 内 部 很 多 产品 所 使 用 ， 但 是 DistBelief 过 于 依赖 谷歌 内 部 的 
系统 架构 ， 很 难 对 外 开源 。 为 了 将 这 样 一 个 在 谷歌 内 部 已 经 获得 了 巨大 成 功 的 系统 开源 ， 
谷歌 大 脑 团队 对 DistBelief 进行 了 改进 ,并 于 2015 年 11 月 正式 公布 了 基于 Apache 2.0 开源 
协议 的 计算 框架 TensorFlow。 相 比 DistBelief，TensorFlow 的 计算 模型 更 加 通用 、 计 算 速 度 
更 快 、 支 持 的 计算 平台 更 多 、 支 持 的 深度 学 习 算法 更 广 而 且 系 统 的 稳定 性 也 更 高 。 在 本 书 
后 面 的 章节 中 , 我 们 将 重点 介绍 TensorFlow 的 使 用 , 关于 TensorFlow 平台 本 身 的 技术 细节 
可 以 参考 谷歌 的 论文 TensorFlow: Large-Scale Machine Learning on Heterogeneous 
Distributed Systems™ 。 


Q 在 第 6 章 中 将 具体 介绍 ILSVRC 比赛 以 及 Inception 模型 。 

@ 此 数字 来 源 于 : http://www.csmonitor.com/Technology/2015/0914/Google-chairman-We-re-making-real- 
progress-on-artificial-intelligence。 

G@) 参见 : Abadi M, Agarwal A, Barham P, et al. TensorFlow: Large-Scale Machine Learning on Heterogeneous 


Distributed Systems [J]. 2016. 
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如 今 在 谷歌 内 部 ，TensorFlow 已 经 得 到 了 广泛 的 应 用 。 在 2015 年 10 月 26 日 ,谷歌 正 
式 宣布 通过 TensorFlow 实现 的 排序 系统 RankBrain 上 线 。 相 比 一 些 传统 的 排序 算法 ， 使 用 
RankBrain 的 排序 结果 更 能 满足 用 户 需 求 。 在 2015 年 彭 博 (Bloomberg) 的 报道 中 "， 谷 歌 
i de We A RankBrain 是 第 三 重要 的 排序 算法 。 基 于 TensorFlow 的 
系统 RankBrain 能 在 谷歌 的 核心 网 页 搜索 业务 中 占据 如 此 重要 的 地 位 ， 可 见 TensorFlow 在 
谷歌 内 部 的 重要 性 。 包括 网 页 搜索 在 内 ，TensorFlow 已 经 被 成 功 应 用 到 了 谷歌 的 各 款 产 品 
之 中 。 如 今 ， 在 谷歌 的 语音 搜索 、 广 告 、 电 商 、 图 片 、 街 景 图 、 翻 译 、YouTube 等 众多 产 
品 之 中 都 可 以 看 到 基于 TensorFlow 的 系统 ”。 在 经 过 半年 的 尝试 和 思考 之 后 ， 谷 歌 的 
DeepMind 团队 也 正式 宣布 其 之 后 所 有 的 研究 都 将 使 用 TensorFlow 作为 实现 深度 学 习 算 法 
的 工具 

除了 在 谷歌 内 部 大 规模 使 用 之 外 ，TensorFlow 也 受到 了 工业 界 和 学 术 界 的 广泛 关注 。 
在 Google IO 2016 的 大 会 上 ，Jeff Dean 提 到 已 经 有 1500 多 个 GitHub 的 代码 库 中 提 到 了 
TensorFlow， 而 只 有 5 个 是 谷歌 官方 提供 的 。 如 今 ， 包 括 优 步 〈Uber)、Snapchat、Twitter、 
京东 、 小 米 等 国内 外 科技 公司 也 纷纷 加 入 了 使 用 TensorFlow 的 行列 .正如 谷歌 在 TensorFlow 
开源 原因 中 所 提 到 的 一 样 ，TensorFlow 正在 建立 一 个 标准 ， 使 得 学 术 界 可 以 更 方便 地 交流 
学 术 研 究 成 果 ， 工 业界 可 以 更 快 地 将 机 器 学 习 应 用 于 生产 之 中 。 

除了 TensorFlow， 目 前 还 有 一 些 主流 的 深度 学 习 开源 工具 。 表 1-2 中 总 结 了 这 些 工 具 
的 主要 情况 。 每 款 工具 都 有 各 目的 特点 ， 由 于 篇 幅 所 限 ， 在 本 书 中 不 再 一 一 介绍 每 一 个 工 
具 目 前 的 优 缺 点 ， 感 兴趣 的 读者 可 以 参考 脚注 中 每 种 工具 的 官方 网 站 给 出 的 信息 。 





表 1-2 人 
主要 维护 人 员 (或 团体 ) a rT 





加 州 大 学 伯克利 分 校 视觉 与 学 习 中 心 C++ Python、 MATLAB MATLAB | Linux、 | Linux、 Mac OS X、Windows OS X、 Windows 


Linux、Windows、Mac OS X、 
Deeplearning4j® Skymind Java、Scala、Clojure 
Android 


Q) 具体 报道 参见 : https://www.bloomberg.com/news/articles/2015-10-26/google-turming-its-lucrative-web-search- 
Over-to-al-machines。 

@) TensorFlow 官方 网 站 : https://www.tensorflow.org/versions/r0.9/resources/uses.html 上 列 出 了 一 些 使 用 
TensorFlow 的 样 例 项 目 。 

@) 具体 报道 参见 谷歌 官方 技术 博客 : https://research.googleblog.com/2016/04/deepmind-moves-to-tensorflow.html。 

@) 表 中 工具 根据 字母 序 排列 。 

@) Caffe 官方 网 站 : http://caffe.berkeleyvision.org/。 

(@) Deeplearning4j 官方 网 站 : https://deeplearming4j.org/。 
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主要 维护 人 员 或 团体 ) 支持 系 


Microsoft Cognitive 
@ | 微软 研究 院 Python、C++、BrainScript | Linux、Windows 
Toolkit (CNTK) 
总 C++ 、 Python 、 Julia 、 Linux、Mac OS X、Windows、 
MXNet 分 布 式 机 器 学 习 社区 (DMLC) 
Matlab、Go、R、Scala Android、1iOS 


PaddlePaddle® C++、Python Linux、 Mac OS X 


Ronan Collobert 、 Soumith Chintala 
Buas LiallT, ‘© 


(Fackbook) 

作者 认为 ， 不 同 的 深度 学 习 工 具 都 在 发 展 之 中 ， 比 较 当 前 的 性 能 、 功 能 固然 是 选择 工 
具 的 一 种 方法 ， 但 更 加 重要 的 是 比较 不 同 工 具 的 发 展 趋势 。 深 度 学 习 本 身 就 是 一 个 处 于 医 
勃发 展 阶段 的 领域 ， 所 以 对 深度 学 习 工 具 的 选择 ， 作 者 认为 应 该 更 加 看 重工 具 在 开源 社区 
的 活跃 程度 。 只 有 社区 活跃 度 更 高 的 工具 ， 才 有 可 能 跟 上 深度 学 习 本 身 的 发 展 速度 ， 从 而 
在 未 来 不 会 面临 被 淘汰 的 风险 。 

图 1-11 对 比 了 不 同 深度 学 习 工 具 在 GitHub 上 活跃 程度 的 一 些 指 标 。 图 1-11 (a) 中 比 
较 了 不 同 工 具 在 GitHub 上 受 关注 的 程度 。 从 图 中 可 以 看 出 ， 无 论 是 在 获得 的 星 数 〈star) 
还 是 在 仓库 被 复制 的 次 数 上 ，TensorFlow 都 要 远 远 超过 其 他 的 深度 学 习 工 具 。 如 果 说 图 
1-11(a) 只 能 代表 不 同 深度 学 习 工 具 在 社区 受 关注 程度 ， 那 么 图 1-11(b) 对 比 了 不 同 深度 学 习 
工具 社区 参与 度 。 图 1-11(b) 中 展示 了 不 同 深 度 学 习 工 具 在 GitHub 上 最 近 一 个 月 的 活跃 讨 
论 贴 和 代码 提交 请 求 数量 。 活 跃 讨论 帖 越 多 ， 可 以 说 明 真 正 使 用 这 个 工具 的 人 也 就 越 多 ，; 
提交 代码 请 求 数量 越 多 ， 可 以 说 明 参 与 到 开发 这 个 工具 的 人 也 就 越 多 。 从 图 1-11 (b) 中 可 
以 看 出 ， 无 论 从 哪个 指标 ，TensorFlow 都 要 远 远 超过 其 他 深度 学 习 工 具 。 大 量 的 活跃 开发 
者 再 加 上 谷歌 的 全 力 支持 ， 作 者 相信 TensorFlow 在 未 来 将 有 更 大 的 潜力 ， 这 也 是 本 书 将 
TensorFlow 作为 介绍 对 象 的 重要 依据 。 
















Linux、Mac OS X、 1 
Androld、1OS 






Clement Farabet (Twitter ) 






Koray Kavukcuoglu (Google) 


GD Microsoft Cognitive Toolkit 官方 网 站 : https://www.microsoft.com/en-us/research/product/cognitive-toolkit/。 
@ MXNet 官方 网 站 : http://mxnet.io/。 

(8) PaddlePaddle 官方 网 站 : http:Wwww.paddlepaddle.org/。 

(4) Theano 官方 网 站 : http://deeplearning.net/software/theano/。 

@@ Torch 官方 网 站 : http://torch.ch/。 
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Tensorflow 


Tensorflow 
187 


活 里 讨论 凯 (issue) 活 外 代 避 提 到 请 求 





Caffe Deeplearningd) RMicrosoft Cognitive Toolkit 至 MXNer -paddlePaddle wTensorFlow Theano Torch 
-一 民 NS AY em 一 (0) 
(a) 不 同 深度 学 习 工 具 社 区 流行 度 指标 比较 


a 












TensorFlow 





TensotFlow 






六 

A < 

ee 
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Es 3777 Be 
图 3 





1525 1881 2231 ce Waa 1756 1685 
星 数 《Star ) 复制 从 里 《Fork ) 






mCaffe Deeplearning4) miMicrosoft Cognitive Joolkit ss ViXNet Paddlepaddle “下 TensorFlow 加 Theano 至 Torch 


(b) 同 深度 学 习 工 具 社 区 参与 度 指 标 比 较 2 
图 1-11 不 同 深度 学 习 工 具 在 GitHub 上 活跃 程度 对 比 图 


小 结 


本 章 对 深度 学 习 做 了 全 方位 的 介绍 。 be ts oN 
学 习 的 概念 ， 并 解释 了 这 些 概念 之 间 的 差异 。 人 工 智 能 是 一 类 非常 广泛 的 问题 ， 它 则 在 通 
过 计算 机 实现 类 似 人 类 的 智能 。 机 器 学 习 是 解决 人 工 智 能 问题 的 一 个 重要 方法 。 RR 
则 是 机 器 学 习 的 一 个 分 支 ， 它 在 很 多 领域 突破 了 传统 机 器 学 习 的 瓶 贷 ， 将 人 工 智能 推 曲 了 
一 个 新 的 高 潮 。 然 而 ， 这 样 一 个 突破 性 的 技术 并 不 是 最 近 几 年 凭空 创造 的 ， 它 所 基于 的 人 


@ 图 中 数据 获取 的 时 间 为 2016 年 11 月 17 日 。 
@ 图 中 数据 来 自 于 Github 上 2016 年 10 月 15 日 至 2016 年 11 月 15 日 的 统计 数据 。 
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工 神 经 网 络 (artificial neural network，ANN) 技术 已 经 发 展 了 大 半 个 世纪 。 不 过 神经 网 络 
的 发 展 不 是 一 帆 风 顺 ，1.2 节 完 整 的 介绍 了 它 发 展 的 三 个 起 落 。 

受到 人 类 大 脑 结 构 的 启发 ,人 工 神 经 网 络 的 计算 模型 于 1943 年 首次 提出 。 之 后 感知 机 
的 发 明 使 得 人 工 神 经 网 络 成 为 真正 可 以 从 数据 中 “学 习 ” 的 模型 。 但 由 于 感知 机 的 网 络 结 
构 过 于 集 单 ， 导 致 无 法 解决 线性 不 可 分 问题 。 再 加 上 人 工 神 经 网 络 所 需要 的 计算 量 太 大 ， 
当时 的 计算 机 无 法 满足 计算 需求 ,使 得 人 工 神经 网 络 的 研究 进入 了 第 一 个 寒冬 。 到 20 世纪 
80 年 代 ， 深 层 神 经 网 络 和 反 回 传播 算法 的 提出 很 好 地 解决 了 这 些 问 题 ， 让 人 工 神经 网 络 进 
入 第 二 个 快速 发 展期 。 不 过 ， 在 这 一 时 期 中 ， 以 支持 问 量 机 为 主 的 传统 机 器 学 习 算 法 也 在 
飞速 发 展 。 在 90 年 代 中 期 ， 在 很 多 机 器 学 习 任务 上 ， 传 统 机 器 学 习 算 法 超越 了 人 工 神经 网 
络 的 精确 度 ， 使 得 人 工 神经 网 络 领 域 再 次 进入 霆 冬 。 直 到 2012 年 前 后 ， 随 着 云 计算 和 海量 
数据 的 普及 ， 人 工 神经 网 络 以 “深度 学 习 ” 的 名 字 再 次 进入 大 家 的 视野 。 在 短 短 几 年 时 间 
内 ， 深 度 学 习 在 很 多 研究 领域 突破 了 传统 机 峰 学 习 的 瓶颈 ， 推 动 了 人 工 智 能 的 有 友 展 。 

人 类 大 脑 的 结构 分 为 了 很 多 神经 中 槐 ， 不 同 的 神经 中 枢 处 理 不 同类 型 的 输入 。 在 很 长 
一 段 时 间 ， 神 经 学 家 认为 人 类 大 脑 不 同 的 神经 中 枢 有 不 同 的 处 理 逻 辑 。 类 似 的 ， 机 器 学 习 
领域 也 一 直 分 为 计算 机 视觉 、 语 音 、 上 自然 语言 处 理 等 多 个 领域 ， 而 且 不 同 领域 使 用 的 算法 
也 有 很 大 区 别 。 然 而 ， 神 经 学 家 后 来 发 现 人 类 大 脑 不 同 神经 中 枢 的 学 习 算 法 是 一 致 的 。 这 
使 得 人 们 看 到 了 深度 学 习 可 以 应 用 在 多 个 领域 的 理论 可 能 性 。 在 实践 中 ， 深 度 学 习 也 确实 
突破 了 很 多 领域 的 技术 瓶颈 。1.3 节 介 绍 了 深度 学 习 在 计算 机 视觉 、 语 音 、 自 然 语言 处 理 、 
人 机 博弈 等 多 个 领域 上 的 突破 性 进展 。 在 ImageNet 图 像 分 类 的 问题 上 ,深度 学 习 成 功 将 错 
误 率 从 26% 降 低 到 了 3.5%。 在 语音 识别 问题 上 上， 谷歌 通过 深度 学 习 将 错误 率 降 低 了 25%， 
这 一 改进 幅度 是 过 去 十 年 的 总 和 。 在 自然 语言 处 理 上 ， 基 于 深度 学 习 的 机 器 翻译 、 搜 索 排 
序 、 情 感 分 析 、 目 然 语 言 建 模 等 应 用 都 已 经 在 国内 外 各 大 科技 公司 内 广泛 使 用 。 由 谷歌 
DeepMind 团队 开发 的 围棋 人 机 博弈 系统 AlphaGo 更 是 激 起 了 全 社会 对 深度 学 习 研 究 的 热 
情 。 如 今 ， 深 度 学 习 已 经 渗透 到 了 工业 界 和 学 术 界 的 每 一 个 领域 。 

要 利用 好 深度 学 习 所 带 来 的 福利 , 选择 一 球 好 的 深度 学 习 工 具 必 不 可 少 。1.4 节 介 绍 了 
谷歌 开源 的 深度 学 习 工 具 TensorFlow 的 特性 和 在 谷歌 内 部 的 应 用 ， 并 将 其 和 目前 其 他 主流 
的 开源 深度 学 习 工 具 做 了 比较 。 在 谷歌 内 部 ，TensorFlow 已 经 被 成 功 应 用 到 语音 搜索 、 广 
告 、 电 商 、 图 片 、 街 景 图 、 翻 译 、YouTube 等 众多 产品 之 中 。 基 于 TensorFlow 开发 的 RankBrain 
排序 算法 在 谷歌 上 干 排序 算法 中 排 在 第 三 重要 的 位 置 ， 由 此 可 见 TensorFlow 在 谷歌 的 重要 
地 人 位。 而且， 对 于 TensorFlow 的 文 持 不 仅仅 来 和 目 谷 歌 。1.4 节 对 比 了 不 同 开 源深 度 学 习 工 
具 的 社区 活跃 度 。 在 各 种 指标 上 ，TensorFlow 的 活跃 程度 都 要 远 远 超过 其 他 工具 。 所 以 ， 
本 书 选择 TensorFlow 作为 介绍 的 工具 。 在 后 面 的 章节 中 将 具体 介绍 如 何 通过 TensorFlow 实 
现 各 种 不 同 的 深度 学 习 算 法 ， 以 及 使 用 TensorFlow 时 的 一 些 最 佳 实践 。 
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一 一 一 一 


本 章 将 介绍 如 何 安装 TensorFlow 环境 以 及 在 安装 好 的 环境 中 运行 简单 的 TensorFlow 位 
例 程序 。 在 介绍 如 何 安装 TensorFlow 之 前 ，2.1 节 将 首先 介绍 TensorFlow 依赖 的 一 些 主要 
工具 包 。 然 后 2.2 节 将 介绍 TensorFlow 的 不 同安 装 方式 以 及 这 些 安装 方式 所 适用 的 不 同 的 
场景 。 最 后 2.3 节 将 给 出 一 个 用 TensorFlow 完成 向 量 加 法 的 样 例 。 通 过 这 个 样 例 程序 ， 读 
者 可 以 测试 安装 好 的 TensorFlow 环境 ， 同 时 也 可 以 对 TensorFlow 有 一 个 直观 的 认识 。 


2.1 TensorFlow 的 主要 依赖 包 


本 节 将 介绍 TensorFlow 依赖 的 两 个 最 主要 的 工具 包 一 一 Protocol Buffer 和 Bazel。 虽 然 
TensorFlow 依赖 的 工具 包 不 仅 限 于 此 节 中 列 出 来 的 两 个 , 但 Protocol Buffer 和 Bazel 是 作者 
认为 相对 比较 重要 的 ， 在 使 用 TensorFlow 的 过 程 中 很 有 可 能 会 接触 到 。 因 为 本 书 的 重点 是 
介绍 TensorFlow， 所 以 在 本 节 对 列 出 来 的 工具 包 只 进行 大 致 的 介绍 ， 主 要 目的 是 为 了 不 妨 
碍 读者 对 TensorFlow 的 使 用 和 理解 。 这些 工具 的 详细 介绍 可 以 参考 脚注 。 在 以 下 的 每 个 小 市 
将 介绍 一 个 工具 包 的 主要 功能 并 给 出 简单 的 样 例 。 





2.1.1 Protocol Buffer 


Protocot Buffer 是 谷歌 开发 的 处 理 结构 化 数据 的 工具 。 何 为 处 理 结构 化 数据 ?这 里 我 
们 给 出 一 个 例子 ,假设 要 记录 一 些 用 户 信 息 , 每 个 用 户 的 信息 包括 用 户 的 名 字 、ID 和 E-mail 
地 址 。 那 么 一 个 用 户 的 信息 可 以 表示 为 以 下 的 形式 。 


GD https://developers.google.com/protocol-buffers/docs/overview 中 给 出 了 更 多 关于 Protocol Buffer 的 介绍 。 
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name: 张 三 
iQ: 2345 
email: zhangsan@abc.com 


上 面 的 用 户 信息 就 是 一 个 结构 化 的 数据 。 注 意 本 节 中 介绍 的 结构 化 数据 和 大 数据 中 的 
结构 化 数据 的 概念 不 同 ， 本 节 中 介绍 的 结构 化 数据 指 的 是 拥有 多 种 属性 的 数据 。 比 如 上 述 
的 用 户 信息 中 包含 名 字 、ID 和 E-mail 地 址 3 种 不 同属 性 ， 那 么 它 就 是 一 个 结构 化 数据 。 当 
要 将 这 些 结构 化 的 用 户 信息 持久 化 或 者 进行 网 络 传输 时 ， 就 需要 先 将 它们 序列 化 。 所 谓 序 
列 化 ， 是 将 结构 化 的 数据 变 成 数据 流 的 格式 ， 人 简单 地 说 就 是 变 为 一 个 字符 串 。 如 何 将 结构 
化 的 数据 序列 化 ， 并 从 序列 化 之 后 的 数据 流 中 还 原 出 原来 的 结构 化 数据 ， 统 称 为 处 理 结构 
化 数据 ， 这 就 是 Protocol Buffer 解决 的 主要 问题 。 

除 Protocol Buffer 之 外 ， XML 和 JSON 是 两 种 比较 常用 的 结构 化 数据 处 理工 具 。 比 如 
将 上 面 的 用 户 信息 使 用 XML 格式 表达 ， 那 么 数据 的 格式 为 : 

<uUSEer> 

<name> 张 三 </name> 
<1Td>12345<;/1d> 


<email>zhangsan@abc.com</email> 
</user > 


同样 的 数据 ， 使 用 JSON 的 格式 为 : 
{ 


wamele me 
eo bbs nal 
"email": “zhangsan@abc.com” ， 


} 


Protocol Buffer 格式 的 数据 和 XML 或 者 JSON 格式 的 数据 有 比较 大 的 区 别 。 首 先 ， 
Protocol Buffer 序列 化 之 后 得 到 的 数据 不 是 可 读 的 字符 串 ， 而 是 二 进 制 流 。 其 次 ，XML 或 
JSON 格式 的 数据 信息 都 包含 在 了 序列 化 之 后 的 数据 中 ,不 需要 任何 其 他 信息 就 能 还 原 序列 
化 之 后 的 数据 。 但 使 用 Protocol Buffer 时 需要 先 定义 数据 的 格式 〈schema)“。 还 原 一 个 序 
列 化 之 后 的 数据 将 需要 使 用 到 这 个 定义 好 的 数据 格式 。 以 下 代码 给 出 了 上 述 用 户 信 息 样 例 
的 数据 格式 定义 文件 。 因 为 这 样 的 差别 ，Protocol Buffer 序列 化 出 来 的 数据 要 比 XML 格式 
的 数据 小 3 到 10 倍 ， 解 析 时 间 要 快 20 到 100 倍 。 

message usert 


optional string name = 1; 
required int32 id = 2; 


@) https://developers.google.com/protocol-buffers/docs/encoding 中 给 出 了 Protocol Buffer 的 具体 编码 方式 。 
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repeated string email = 3:; 

} 

Protocol Buffer 定义 数据 格式 的 文件 一 般 保存 在 .proto 文件 中 。 每 一 个 message 代表 了 
一 类 结构 化 的 数据 ， 比 如 这 里 的 用 户 信息 。message 里 面 定 义 了 每 一 个 属性 的 类 型 和 名 字 。 
Protocol Buffer 里 属性 的 类 型 可 以 是 像 布尔 型 、 整 数 型 、 实 数 型 、 字 符 型 这 样 的 基本 类 型 ， 
也 可 以 是 另外 一 个 message。 这 样 大 大 增加 了 Protocol Buffer 的 灵活 性 。 在 message 中 ， 
Protocol Buffer 也 定义 了 一 个 属性 是 必须 的 (required) 还 是 可 选 的 (optional), 或 者 是 可 重 
复 的 (repeated)。 如 果 一 个 属性 是 必须 的 (required)， 那 么 所 有 这 个 message 的 实例 都 需要 
有 这 个 属性 >">， 如果 一 个 属性 是 可 选 的 (optional)， 那 么 这 个 属性 的 取 值 可 以 为 空 ， 如 果 一 
个 属性 是 可 重复 的 (repeated)， 那 么 这 个 属性 的 取 值 可 以 是 一 个 列表 。 还 是 以 用 户 信息 为 
例 ， 所 有 用 户 都 需要 有 ID， 所 以 ID 这 个 属性 是 必须 的 ; 不 是 所 有 用 户 都 填写 了 姓名 ， 所 
以 姓名 这 个 属性 是 可 选 的 ; 一 个 用 户 可 能 有 多 个 E-mail 地 址 , 所 以 E-mail 地 址 是 可 重复 的 。 

Protocol Buffur 是 TensorFlow 系统 中 使 用 到 的 重要 工具 ，TensorFlow 中 的 数据 基本 都 
是 通过 Protocol Buffer 来 组 织 的 。 在 后 面 的 章节 中 将 看 到 Protocol Buffer 是 如 何 被 使 用 的 。 
分 布 式 TensorFlow 的 通信 协议 gRPC 也 是 以 Protocol Buffer 作为 基础 的 。 


2.1.2 Bazel 


Bazel* 是 从 谷歌 开源 的 自动 化 构建 工具 ， 谷 歌 内 部 绝 大 部 分 的 应 用 都 是 通过 它 来 编译 
的 。 相 比 传 统 的 Makefile、Ant 或 者 Maven，Bazel 在 速度 、 可 伸缩 性 、 灵 活性 以 及 对 不 同 
程序 语言 和 平台 的 支持 上 都 要 更 加 出 色 。TensorFlow 本 身 以 及 谷歌 给 出 的 很 多 官方 样 例 都 
是 通过 Bazel 来 编译 的 。 这 一 小 节 将 简单 介绍 Bazel 是 怎样 工作 的 。 

项 目 空间 (workspace) 是 Bazel 的 一 个 基本 概念 ”。 一 个 项 目 空间 可 以 简单 地 理解 为 一 
个 文件 夹 ， 在 这 个 文件 夹 中 包含 了 编译 一 个 软件 所 需要 的 源 代码 以 及 输出 编译 结果 的 软 连 
接 (symbolic link〉 地 址 。 一 个 项 目 空间 内 可 以 只 包含 一 个 应 用 (比如 TensorFlow)， 这 种 
情况 在 2.2.3 小 节 中 将 会 用 于 从 源码 安装 TensorFlow。 一 个 项 目 空间 也 可 以 包含 多 个 应 用 。 
一 个 项 目 空间 所 对 应 的 文件 夹 是 这 个 项 目的 根 目 录 ， 在 这 个 根 目 录 中 需要 有 一 个 
WORKSPACE 文件 ， 此 文件 定义 了 对 外 部 资源 的 依赖 关系 。 空 文件 也 是 一 个 合法 的 


Q@ 在 最 新 的 Protocol Buffer3 中 已 经 不 再 支持 required 类 型 。 
@ http://www.bazel.io 中 给 出 了 关于 Bazel 的 更 多 介绍 。 
@) http://www.bazel.io/docs/be/workspace.html 中 给 出 了 项 目 空 间 的 完整 文档 和 开发 手册 。 
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WORKSPACE 文件 。 

在 一 个 项 目 空间 内 ，Bazel 通过 BUILD 文件 来 找到 需要 编译 的 目标 "。BUILD 文件 采 
用 一 种 类 似 于 Python 的 语法 来 指定 每 一 个 编译 目标 的 输入 、 输 出 以 及 编译 方式 。 与 Makefile 
这 种 比较 开放 式 的 编译 工具 不 同 ，Bazel 的 编译 方式 是 事先 定义 好 的 。 因 为 TensorFlow 主 
要 使 用 Python 语言 ， 所 以 这 里 都 以 编译 Python 程序 为 例 。Bazel 对 Python 支持 的 编译 方式 
只 有 三 种 : py binary、py library 和 py test2。 其 中 py_binary 将 Python 程序 编译 为 可 执行 
文件 ,py test 编译 Python 测试 程序 ,py_library 将 Python 程序 编译 成 库 函 数 供 其 他 py_binary 
或 py test 调用 。 下 面 给 出 了 一 个 简单 的 样 例 来 说 明 Bazel 是 如 何 工 作 的 。 如 下 所 示 ， 在 样 
例 项 目 空间 中 有 4 个 文件 : WORKSPACE、BUILD、hello main.py 和 hello lib.py。 


—rIw-rw-r-— Loot root 208 BUILD 


-WL Ws nOOLEO0C48 hellionlib.. py 
TW WOOL OOL:d hello main.py 
-rTW=rW= == TOOt roOoOtS0ni NORKSPACE 


WORKSPACE 给 出 此 项 目的 外 部 依赖 关系 。 为 了 简单 起 见 ， 这 里 使 用 一 个 空 文件 ， 标 
明 这 个 项 目 没 有 对 外 部 的 依赖 。hello lib.py 完成 打印 “Hello World” 的 简单 功能 ， 它 的 代 
人 码 如 下 : 


def print hello world() : 
print ("Hello World") 


hello main.py 通过 调用 hello_lib.py 中 定义 的 函数 来 完成 输出 ， 它 的 代码 如 下 : 


lmporteheldosEiDb 
hello lib.print hello world!() 


在 BUILD 文件 中 定义 了 两 个 编译 目标 : 


py_libraryl( 
name = "hello lib", 
srcs = [ 
helouliibe py 
] 
) 
py binatzy 人 
name = "hello main", 
srcs= [ 
"hello main.py", 


@ http://www.bazel.io/docs/be/overview.html 中 给 出 了 BUILD 文件 的 完整 文档 和 开发 手册 。 
@ http:/www.bazel.io/docs/test-encyclopedia.html 中 给 出 了 更 多 关于 测试 目标 的 介绍 。 
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] ， 

deps = [ 
heel 

], 


) 


从 这 个 样 例 中 可 以 看 出 ，BUILD 文件 是 由 一 系列 编译 目标 组 成 的 。 定 义 编译 目标 的 先 
后 顺序 不 会 影响 编译 的 结果 。 在 每 一 个 编译 目标 的 第 一 行 要 指定 编译 方式 ， 在 这 个 样 例 中 
融 是 py_library 或 者 py_binary。 在 每 一 个 编译 目标 中 的 主体 需要 给 出 编译 的 具体 信息 。 编 
译 的 具体 信息 是 通过 定义 name，srcs，deps 等 属性 完成 的 。name 是 一 个 编译 目标 的 名 字 ， 
这 个 名 字 将 被 用 来 指 代 这 一 条 编译 目标 。srcs 给 出 了 编译 所 需要 的 源 代码 ， 这 一 项 可 以 是 
一 个 列表 。deps 给 出 了 编译 所 需要 的 依赖 关系 ， 比 如 样 例 中 hello main.py 需要 调用 
hello_lib.py 中 的 函数 ， 所 以 hello_main 的 编译 目标 中 将 hello_lib 作为 依赖 关系 。 在 这 个 项 
目 空间 中 运行 编译 操作 bazel build :hello main 将 得 到 类 似 以 下 的 结果 : 


Irwxrwxrwx 1root root 74 bazel-bazel -> ~/.cache/bazel/_baze!l_root/0ale386d667563a2d9ed561a4f7d1a3e/bazel/ 

Irwxrwxrwx 1 root root 104 bazel-bin -> ~/.cache/bazel/_bazel_root/0aie386d667563a2d9ed561a4f7dia3e/bazel/bazel-out/local-fastbuild/bin/ 
jrwxrwxrwx 1 root root 109 bazel-genfiles -> ~/.cache/bazel/_bazel_root/0ale386d667563a2d9ed561a4f7d1a3e/bazel/bazel-out/local-fastbuild/genfiles/ 
Irwxrwxnwx 1 root root 84 bazel-out -> >/.cache/bazel/_bazel root/0alie386d667563a2d9ed561a4f7d1a3e/bazel/bazel-out/ 


jrwxrwxrwx 1 root root 109 bazel-testlogs -> ~“/.cache/bazel/_baze!_root/0ale386d667563a2d9ed561a4f7d1ia3e/bazel/bazel-out/local-fastbuild/testlogs/ 
-rwWw-rw-r— 1 root root 208 BUILD 


-TW-rW-r— 1 rootroot 48 hello lib.py 
-rwW-rW-r— 1 rootroot 47 hello_main.py 
-rw-rw-r 一 1root root 0 WORKSPACE 


从 上 面 的 结果 可 以 看 到 ,在 原来 4 个 文件 的 基础 上 ，Bazel 生成 了 其 他 一 些 文件 夹 。 这 
些 新 生成 的 文件 夹 就 是 编译 的 结果 ， 它 们 都 是 通过 软 连接 的 形式 放 在 当前 的 项 目 空间 里 。 
实际 的 编译 结果 文件 都 会 保存 到 ~/.cache/bazel 目录 下 ,这 是 可 以 通过 output user root 或 者 
output_base 参数 来 改变 的 ”。 在 这 些 编译 出 来 的 结果 当中 , bazel-bin 目录 下 存放 了 编译 产生 
的 二 进 制 文件 以 及 运行 该 二 进 制 文件 所 需要 的 所 有 依赖 关系 。 在 当前 目录 下 运行 
bazel-bin/hello_main 就 会 在 屏幕 输出 “Hello World”。 其 他 编译 结果 在 本 书 中 使 用 较 少 ， 这 
里 就 不 表 交 述 。 


2.2 TensorFlow 安装 


TensorFlow 提供 了 多 种 不 同 的 安装 方式 ， 本 小 节 将 逐一 介绍 通过 Docker 安装 、 通 过 
pip 安装 以 及 从 源码 安装 。 


GD http:/www.bazel.io/docs/output_directories.html 中 详细 介绍 了 编译 结果 的 目录 结构 。 
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2.2.1 使 用 Docker 安装 


Docker 是 新 一 代 的 虚拟 化 技术 ， 它 可 以 将 TensorFlow 以 及 TensorFlow 的 所 有 依赖 关 
系统 一 封装 到 Docker 镜像 当中 ， 从 而 大 大 简化 了 安装 过 程 。 通 过 Docker 运行 应 用 时 需要 
先 安装 Docker。Docker 支持 大 部 分 的 操作 系统 ， 下 面 列 出 了 最 主要 的 一 些 。 

。 Linux 系统 : Ubuntu、CentOS、Debian、 红 巾 企 业 版 (Red Hat Enterprise Linux) 等 。 

e Mac OSX : 10.10.3 Yosemite 或 以 上 。 

e Windows : Windows 7 或 以 上 。 

如 何 安 装 / 使 用 Docker 不 是 本 书 重 点 ， 这 里 就 不 再 介绍 在 不 同 操作 系统 下 如 何 安装 
Docker”。 当 Docker 安装 完成 后 ， 只 需要 使 用 一 个 打包 好 的 Docker 镜像 。 对 于 TensorFlow 
发 布 的 每 一 个 版 本 ， 合 歌 都 提供 了 4 个 官方 镜像 。 表 2-1 给 出 了 这 些 镜像 的 名 称 以 及 镜像 
中 的 包含 的 内 容 。 


表 2-1 TensorFlow 官方 Docker 镜像 列表 


Tc | | 









tensorflow/tensorflow:0.9.0-gpu 
tensorflow/tensorflow:0.9.0-devel-gpu 


镜像 的 标签 (冒号 后 面 的 部 分 ) 给 出 了 TensorFlow 的 版 本 。 本 书 的 绝 大 部 分 代码 将 统 
一 使 用 版 本 0.9.09。 才 云 科 技 也 提供 了 TensorFlow 的 相关 镜像 cargo.caicloud.io/tensorflow/ 
tensorflow:0.12.0 <。 与 官方 镜像 类 似 ，0.12.0 表示 TensorFlow 版 本 。 如 果 TensorFlow 推出 
更 新 的 版 本 ， 此 版 本 号 可 以 被 蔡 换 为 更 新 的 版 本 号 。 在 官方 镜像 的 基础 上 ， 才 云 科 技 提 供 
的 镜像 进一步 整合 了 其 他 机 器 学 习 工 具 包 以 及 TensorFlow 可 视 化 工具 TensorBoard ”， 使 用 
起 来 可 以 更 加 方便 。 才 云 科 技 即将 上 线 TensorFlow 的 公有 云 平 台 caicloud.io， 在 此 平台 上 
可 以 直接 运行 TensorFlow 程序 ， 从 而 省 去 了 安装 的 过 程 。 






GD https://www.docker.com/what-docker 中 详细 介绍 了 Docker 的 基本 概念 。 

@) https://docs.docker.com/engine/installation 中 介绍 了 在 不 同 操作 系统 下 如 何 安装 Docker。 

@) 因为 0.9.0 对 循环 神经 网 络 支持 不 是 特别 友好 ， 所 以 第 8 章 部 分 代码 使 用 了 版 本 0.10.0。 在 本 书 中 ， 使 
用 了 其 他 版 本 的 样 例 代 码 都 给 出 了 明确 的 注释 。 

@ 才 云 科技 只 提供 0.12.0 及 以 上 版 本 的 TensorFlow 镜像 。 

@ 第 9 章 将 更 加 详细 地 介绍 如 何 使 用 TensorFlow 可 视 化 工具 TensorBoard。 
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当 Docker 安装 完成 之 后 ， 可 以 通过 以 下 命令 来 启动 一 个 TensorFlow 容器 "。 在 第 一 次 
运行 的 时 候 ，Docker 会 自动 下 载 镜 像 。 


$ docker run -it -p 8888:8888 -P 6006:6006\ 
cargo.caicloud.io/tensorflow/ tensorflow:0.12.0 


在 这 个 命令 中 , -p 8888:8888 将 容器 内 运行 的 Jupyter 服务 映射 到 本 地 机 器 , 这 样 在 浏 
览 器 中 打开 localhost:8888 就 能 看 到 类 似 下 图 的 Jupyter 界面 。 企 此 镜像 中 运行 的 Jupyter 是 
一 个 网 页 版 的 代码 编辑 器 ， 它 支持 创建 、 上 传 、 修 改 和 运行 Python 程序 。 通 过 Jupyter， 才 
云 科 技 提供 了 本 书 所 有 的 样 例 程序 ， 如 图 2-1 所 示 。 


Bs 

Pd Jupyter dopo | 
i Files Running Clusters 

Select items to perform actions on them. i Upload | New vi Zij 


TO | | 和 1 Deep_Learning_With_ TensorFlow 1 0.12.0 
口 口 chapter03 

这 二 A te a ed ete 

口 D Chapter05 

五 E Ee Ce 

口 已 Chapter07 


| 口 口 Chapler08 


oO © Chapler09 





| 口 Chapter10 
图 2-1 才 云 科技 提供 的 TensorFlow 镜像 Jupyter 页 面 示意 图 


-p 6006:6006 将 容器 内 运行 的 TensorFlow 可 视 化 工具 TensorBoard 映射 到 本 地 机 器 , 通 
过 在 浏览 器 中 打开 localhost:6006 就 可 以 将 TensorFlow 在 训练 时 的 状态 、 图 片 数 据 以 及 神经 
”网 络 结构 等 信息 全 部 展示 出 来 。 此 镜像 会 将 所 有 输出 到 /log 目录 底下 的 日 志 全 部 可 视 化 。 
具体 如 何 使 用 TensorBoard 将 在 第 9 章 中 详细 介绍 。 

虽然 文 持 GPU 的 Docker 镜像 ， 但 是 要 运行 这 些 镜像 需要 安装 最 新 的 Nvidia 驱动 以 及 
nvidia-docker”。 在 安装 完成 nvidia-docker 之 后 ， 可 以 通过 以 下 的 命令 运行 支持 GPU 的 
TensorFlow 镜像 。 在 镜像 局 动 之 后 可 以 通过 和 上 面 类 似 的 方式 使 用 TensorFlow。 


$ nvidia-docker run -it -P 8888:8888 -p 6006:6006 \ 
cargo.caicloud.io/tensorflow/tensorflow:0.12.0-gpu 


CD https://docs.docker.com/engine/reference/commandline/cli 中 给 出 了 Docker 命令 的 文档 。 
@ http://jupyter.org/ 中 给 出 了 对 Jupyter 更 加 详细 的 介绍 。 
@) https://github.com/NVIDIA/nvidia-docker 中 介绍 了 nvidia-docker 的 基本 原理 和 安装 说 明 。 
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2.2.2 使 用 pip 安装 


pip 是 一 个 安装 、 管 理 Python 软件 包 的 工具 "“， 通 过 pip 可 以 安装 已 经 打包 好 的 
TensorFlow 以 及 TensorFlow 所 需要 的 依赖 关系 。 目 前 TensorFlow 只 提供 了 部 分 操作 系统 下 
打包 好 的 安装 文件 ， 在 其 他 操作 系统 下 安装 或 者 需要 安装 定制 化 代码 的 TensorFlow 请 参考 
2.2.3 小 节 。 通 过 pip 安装 可 以 分 为 以 下 三 步 。 


第 一 步 : 安 闭 pip 
# 在 Ubuntu/Linux 64-bit 环境 下 安装 。 
$ sudo apt-get install python-pip python-dev 


# 在 Mac 0S X 环 境 下 安装 。 
$5 sudo easy install pip 
$5 -sudo “easy install -~-upgrade six 


第 二 步 : 找到 合适 的 安装 包 URL 
仅 支 持 CPU 的 TensorFlow 安装 包 有 : 


# Ubuntu/Linux 64-bit, Python 2.7 环境 。 
$ export TF BINARY URL=https://storage.googleapis.com/tensorflow/linux/ 
cpu/tensorflow-0.9.0-cp27-none-linux x86 64.whl 


# Ubuntu/Linux 64-bit，Python 3.4 环 境 。 
$ export TF BINARY URL=https://storage.googleapis.com/tensorflow/linux/ 
cpu/tensorflow-0.9.0-cp34-cp34m-linux x86 64.whl 


# Ubuntu/Linux 64-bit, CPU only，Python 3.5 环境 。 
$ export TF BINARY URL=https://storage.googleapis.com/tensorflow/linux/ 
cpu/tensorflow-0.9.0-cp35-cp35m-linux x86 64.whl 


# Mac OS X，Python 2.7 环境。 
$ export TF BINARY URL=https: pd googleapis :tom/tensorflow/mac/ 
tensorflow-0.9.0-py2-~none-~any.whl 


# Mac OS XxX, Python 3.4 or 3.5 环境 。 
$ export TF BINARY URL=https://storage.googleapis.com/tensorflow/mac/ 
tensorflow-0.9.0-py3-none~any.whl 


目前 只 有 在 安装 了 CUDA toolkit 7.5 和 CuDNN v4 的 64 位 Ubuntu 下 可 以 通过 pip 安装 


QQ) https://pip.pypa.io 中 给 出 pip 的 文档 。 
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文 持 GPU 的 TensorFlow， 对 于 其 他 系统 或 者 其 他 CUDA/CuDNN 版 本 的 用 户 ， 则 需要 从 源 
码 进 行 安装 来 支持 GPU 使 用 。 如 何 从 源码 进行 安装 将 在 2.2.3 小 节 中 详 述 。 下 面 给 出 了 文 
持 GPU 的 TensorFlow pip 安装 包 的 URL: 


# Python 2.7 环境 


$ export TF BINARY URL=https://storage.googleapis.com/tensorflow/linux/ 
gpu/tensorflow-0.9.0-cp27-none-linux x86 64.whl 


# Python 3.4 环境 
$ export TF BINARY URL=https://storage.googleapis.com/tensorflow/linux/ 
gpu/tensorflow-0.9.0-cp34-cp34m-linux x86 64.whl 


# Python 3.5 环境 
$ export TF BINARY URL=https://storage.googleapis.com/tensorflow/linux/ 
gpu/tensorflow-0.9.0-cp35-cp35m-linux x86 64.whl 


job Si 


第 三 步 : 通过 pip 安装 TensorFlow 


# Python 2 环境 
$.. Sudo'pip install -~-upgrade SsTE BINARY URD 


# Python 3 环境 
$ sudo pip3 install --upgrade S$TF BINARY URL 


通过 这 三 步 ，TensorFlow 环境 就 安装 完成 了 。 


2.2.3 ”从 源 代码 编译 安装 


从 源 代码 安装 TensorFlow 的 过 程 主要 就 是 将 TensorFlow 源 代码 编译 成 pip 安装 包 的 过 
程 。 将 TensorFlow 的 源 代码 编译 为 pip 所 使 用 的 wheel 文件 之 后 ， 通 过 2.2.2 小 节 中 介绍 的 
pip install 的 方法 就 可 以 完成 安装 。 在 编译 TensorFlow 源 代 码 之 前 需要 先 安装 TensorFlow 
所 依赖 的 其 他 工具 包 。 不 同 操作 系统 下 需要 安装 的 工具 包 略 微 有 一 些 差 别 ， 而 且 在 不 同 操 
作 系 统 下 安装 这 些 工 具 包 的 方法 也 不 大 一 样 ， 这 一 小 节 将 以 Ubuntu 14.04 和 Mac OS X 为 
例 来 介绍 如 何 安装 TensorFlow 依赖 的 工具 包 ”。 


在 Ubuntu 14.04 下 安装 依赖 的 工具 包 
首先 需要 安装 2.1.2 小 节 中 介绍 的 编译 工具 Bazel。 安 装 Bazel， 首 先 要 安装 JDK8。 以 


@ 其 他 版 本 的 Linux 可 以 参考 Ubuntu 14.04 下 的 安装 方法 。 目前 TensorFlow 没有 比较 好 的 文 持 在 
Windows 下 从 源码 安装 ，Windows 用 户 可 以 通过 2.2.1 节 中 介绍 的 Docker 来 使 用 TensorFlow。 
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下 代码 给 出 了 安装 JDK8 的 方法 。 


sudo apt-get install software-properties-common 
sudo add-apt-repository ppa:webupd8team/java 
sudo apt-get update 

sudo apt-get install oracle-java8-installer 


然后 安装 Bazel 的 其 他 依赖 的 工具 包 : 


smSUudorapt=Gqet install pkg=contig Zip g++-zZ1iblg-~dev Urizip 


接着 在 Bazel 的 GitHub 发 布 页 面 下 载 安装 包 (https:Wgithub.comybazelbuild/bazel/releas 
es/tag/0.3.1)。 其 中 0.3.1 为 Bazel 的 版 本 号 。 如 果 有 更 新 的 版 本 ， 可 以 相应 的 替换 上 面 连 接 
中 的 版 本 号 。 在 这 个 页 面 中 下 载 安 装 包 bazel-0.3.1-jdk7-installer-linux-x86 64.sh， 然 后 就 可 
以 通过 这 个 安装 包 来 安装 Bazel。 以 下 代码 实现 了 Bazel 的 安装 过 程 。 


$chmod txsbazel~0.3%1l-Jdk I Linstaller=Linux x86s64dsh 
bu/ bazel 0 Siridk -installer -linux X80.64,. Sh =USer 
$5 export PATH="$PATH: $SHOME/bin" 


Bazel 安装 完成 后 还 需要 通过 以 下 代码 来 安装 TensorFlow 的 依赖 的 其 他 工具 包 。 


# Python 2.7 环境 
$ sudo apt-get install python-numpy swig python-dev python-wheel 


a Op ee RE Op A Ss 


# Python 3.x 环 境 

$ sudo apt-get install python3-numpy swig python3-dev python3-wheel 

如 果 要 支持 GPU， 那 么 还 需要 安装 Nvidia 的 Cuda Toolkit 〈 版 本 需要 大 于 或 等 于 7.0) 
和 cuDNN (版 本 需要 大 于 或 等 于 v2)。 而 且 TensorFlow 只 支持 Nvidia 计算 能 力 (compute 
capability〉 大 于 3.0 的 GPU。 比 如 Nvidia Titan、Nvidia Titan X、Nvidia K20、Nvidia K40 
等 都 满足 要 求 ”。 

Cuda Toolkit 的 安装 包 以 及 安装 方法 可 登录 https://developer.nvidia.com/cuda-downloads 
获得 。 在 根据 引导 填写 完 操 作 系 统 相关 参数 之 后 ， 该 网 站 将 提供 Cuda 7.5 的 安装 包 及 详细 
安装 方法 。 登 录 https://developer.nvidia.com/cudnn 可 下 载 cuDNN 的 安装 包 。 在 下 载 之 前 需 
要 先 注 册 ， 但 注册 是 完全 免费 的 。 注 册 完 成 后 可 以 下 载 cuDNN v4 Library for Linux， 其 中 
v4 可 以 巷 换 成 更 新 的 版 本 。 下 载 完 成 后 ， 需 要 通过 以 下 命令 把 下 载 下 来 的 安装 包 复 制 到 
Cuda 的 目录 《这 里 假设 是 /usrlocalcuday): 


tar xvzf Caudnn=l2 oo LLINUX Od AREGZ 
sudo cp cudnn-7.5-linux-x64-v4/cudnn.h /usr/local/cuda/include 


CD https://developer.nvidia.com/cuda-gpus 中 列 出 了 所 有 GPU 的 计算 能 
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sudo cp cudnn-7.5-linux-x64-v4/1ibcudnn* /usr/local/cuda/lib64 
sudo chmod a+r /usr/local/cuda/include/cudnn.h \ 
/usr/local/cuda/l1ib64/ libcudnn* 


在 Mac OS X 下 安装 依赖 工具 包 


Homebrew 是 Mac OS X 下 一 个 软件 安装 工具 ?， 通 过 这 个 工具 可 以 很 方便 地 安装 比如 
Bazel，SWIG 等 TensorFlow 的 依赖 工具 。Homebrew 自己 的 安装 过 程 也 很 简单 ， 以 下 代码 
给 出 也 的 安装 方法 : 


/usr/bin/ruby -~e. "S$ (curl =fsSL'\ 
https://raw.githubusercontent.com/Homebrew/install/master/install)" 


安装 完 Homebrew 后 就 可 以 通过 brew 来 安装 Bazel 和 SWIG: 


$ brew install bazel swig 


然后 可 以 通过 easy install 来 安装 Python 相关 的 依赖 工具 : 


sudo easy install -U six 
sudo easy install -U numpy 
sudo easy install wheel 


UU UU UU UU 


sudo easy install ipython 


如 果 需 要 支持 GPU, 在 安装 Cuda Toolkit 和 cuDNN 之 前 , 还 需要 通过 Homebrew 安装 
GNU coreutils: 


$ brew install coreutils 


和 Ubuntu 14.04 类 似 , https://developer.nvidia.com/cuda-downloads 网 站 提供 了 安装 最 新 
Cuda Toolkit 的 安装 包 与 安装 方法 。 但 在 Mac OSX 下 可 以 通过 Homebrew Cask 来 直接 安装 : 


$ brew tap caskroom/cask 
$ brew cask install cuda 


Cuda Toolkit 安装 完成 之 后 需要 将 环境 变量 加 入 到 ~/ bash Loom 文件 中 : 


export CUDA HOME= /usr/local/cuda 
export DYLD LIBRARY PATH="$DYLD LIBRARY PATH:$CUDA HOME/1lib" 
export PATH="$CUDA HOME/bin:$PATH" : 


https://developer.nvidia.com/cudnn 网 站 提供 了 cuDNN 的 安装 包 。 在 下 载 之 前 这 个 网 站 
需要 先 注 册 ， 注 册 是 完全 免费 的 。 注 册 完 成 后 可 以 下 载 caDNN v4 Library for OS X， 其 中 
v4 可 以 替换 成 更 新 的 版 本 。 下 载 完 成 后 需要 将 文件 解压 并 放 到 Cuda Toolkit 的 目录 下 。 以 


GD http://brew.sh 中 介绍 Homebrew 的 功能 。 
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下 代码 完成 了 这 个 过 才 程 : 


$ sudo mv include/cudnn.h /Developer/NVIDIA/CUDA-7.5/include/ 
$ sudo mv lib/libcudnn* /Developer/NVIDIA/CUDA-7.5/1ib 
$ sudo ln -s /Developer/NVIDIA/CUDA-7.5/1lib/libcudnn* /usr/local/cuda/lib/ 


配置 TensorFlow 编译 环境 


在 所 有 依赖 的 工具 包 都 安装 完成 之 后 就 可 以 开始 从 源码 来 安装 TensorFlow 了 。 无论 在 
哪个 操作 系统 下 ， 要 从 源 代码 开始 安装 ， 自 先 需 要 下 载 源 代码 。 通 过 以 下 命令 可 以 下 载 最 
新 的 TensorFlow 源 代码 : 


$ git clone https: //github.com/tensorflow/tensorflow 


使 用 以 上 命令 将 下 载 TensorFlow 最 新 的 代码 。 如 果 需 要 下 载 之 前 发 布 的 版 本 ， 可 以 在 
上 述 命令 中 加 入 -b <branchname> 参 数 。 其 中 <branchname> 可 以 是 r0.7、r0.8、r0.9 等 。 如 果 
安装 r0.8 或 者 更 老 的 版 本 ， 还 需要 在 上 述 命令 中 加 入 --recurse-submodules 参数 来 拉 取 
TensorFlow 依赖 的 其 他 工具 。 源码 下 载 完成 之 后 , 需要 运行 configure 脚本 来 配置 环境 信息 : 


$ cd tensorflow 

$ ./configure 

# 配置 Python 的 路 径 。 

Please specify the location of Python. [Default is /usr/bin/python]: 

# 配置 是 否 文 持 谷歌 云 平 台 

Do you wish to build TensorFlow with Google Cloud Platform support? [y/NIN 
No Google Cloud Platform support will be enabled for TensorFlow 

# 配置 是 否 文 持 GPU。 

Do you wish to build TensorFlow with GPU support? [y/N] y 

GPU support will be enabled for TensorFlow 

# 配置 GPU。 

Please specify which gcc nvcec should use as the host compiler. [Default is 
/UST/ADINnAGCO:: 

# 配置 Cuda SDK 版 本 。 

Please specify the Cuda SDK version you.want to use, e.g. 7.0. [Leave empty 
to use system default]: 7.5 ' 

# 配置 CUDA toolkit 目录 。 

Please specify the location where CUDA 7.5 toolkit is installed. Refer to 
README .md for more details. [Default is /usr/local/cudal: 

# 配置 cudnn 版 本 。 ; 

Please specify the Cudnn version you want to use. [Leave empty to use system 
default]: 4 

# 配置 cuDNN 目录 。 

Please specify the location where cuDNN 4 library is installed. Refer to 
README .md for more details. [Default is /usr/local/cudal: 
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上 # 配置 GPU 计算 能 

Please specify a list of comma-separated Cuda compute capabilities you want 
tobuild wi En 

You can find the- compute capability of your device at: https://developer. 
nvidia.com/cuda-gpus. 

Please note that each additional compute capability significantly increases 
your build time and binary size. 


Setting up Cuda include 
SettingeUuD Cudassib 
SettingupD Cuda bin 
Setting up Cuda nvvm 
Setting up CUPTI include 
Setting up CUPTI 1ib64 
Configuration finished 


当 环 境 配置 完成 之 后 通过 Bazel 来 编译 pip 的 安装 包 ， 然 后 通过 pip 安 痛 : 


$ bazel buiild -c opt 一 -Config=cuada \ 
//tensorflow/tools/pip package:build pip package 

$ bazel-bin/tensorflow/tools/pip package/build pip package \ 
/tmp/tensorflow pkg 

$ sudo pip install /tmp/tensorflow pkg/tensorflow-0.9.0-py2-none-any.whl 


第 一 个 命令 中 --config=cuda 参数 为 对 GPU 的 支持 。 如 果 不 需 要 支持 GPU， 就 不 需要 


这 个 参数 了 。 最 后 一 行 中 wheel 安装 包 的 名 字 (tensorflow-0.9.0-py2-none-any.whl) 和 系统 
环境 有 关 ， 使 用 pip 安装 之 前 可 以 先 通过 ls 命令 来 确认 安装 包 的 名 字 。 


2.3 TensorFlow 测试 样 例 


通过 2.2 节 中 介绍 的 方法 安装 好 TensorFlow 后 ， 在 这 一 节 中 将 给 出 一 个 简单 的 


TensorFlow 样 例 程序 来 实现 两 个 向 量 求 和 。TensorFlow 支持 C、C++ 和 Python 三 种 语言 ， 
但 是 它 对 Python 的 支持 是 最 全 面 的 ， 所 以 本 书 中 所 有 的 样 例 都 会 使 用 Python 语言 。 通 过 


本 市 


给 出 来 的 简单 样 例 , 读者 可 以 测试 安装 好 的 TensorFlow 环境 , 同时 也 可 以 对 TensorFlow 


有 一 个 直观 的 认识 。 这 一 节 将 直接 使 用 Python 自 带 的 交互 界面 来 演示 这 个 简单 样 例 : 
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在 进入 Python 交互 界面 之 后 ， 先 通过 import 操作 加 载 TensorFlow: 


>>> mport le as 七 f 


上 图 显示 TensorFlow 已 经 成 功 加 载 了 。Python 可 以 通过 重 命名 来 使 引用 更 加 方便 ,在 
本 书 中 都 会 将 “tensorflow” 简 写 为 “tf”。 然 后 定义 两 个 癌 量 ，a 和 b: 


le 





tf.constant([2.8,3.908], name="b"”) 


在 这 里 将 a 和 b 定义 为 了 两 个 常量 (tf.constant)， 一 个 为 [1.0,2.0]， 男 一 个 为 [2.0,3.0]。 
在 两 个 加 数 定义 好 之 后 ， 将 这 两 个 向 量 加 起 来 : 


> > 


熟悉 NumPy 的 读者 会 发 现 ， 在 TensorFlow 之 中 ， 向 量 的 加 法 也 是 可 以 直接 通过 加 号 
(+) 来 完成 的 。 最 后 输出 相 加 得 到 的 结果 : 


>>> sess.run(result) 





array( 3-.;， 5-]，dtype=float32) 


要 输出 相 加 得 到 的 结果 , 不 能 简单 地 直接 输出 result, 而 需要 先生 成 一 个 会 话 (session )， 
并 通过 一 个 这 个 会 话 (session) 来 计算 结果 。 到 此 ， 就 实现 了 一 个 非常 简单 的 TensorFlow 
模型 。 第 3 章 将 更 加 深入 地 介绍 TensorFlow 的 基本 概念 ， 并 将 TensorFlow 的 计算 模型 和 神 
经 网 络 模型 结合 起 来 。 


小 结 


在 本 章 中 首先 介绍 了 TensorFlow 主要 依赖 的 两 个 工具 一 一 Protocol Buffer 和 Bazel。 
Protocol Buffer 是 一 个 结构 数据 序列 化 的 工具 ， 在 TensorFlow 中 大 部 分 数据 结构 都 是 通过 
Protocol Buffer 的 形式 存储 的 。Bazel 是 一 个 谷歌 开源 的 编译 工具 ， 在 2.2 节 中 讲解 了 如 何 
通过 Bazel 编译 TensorFlow 的 源 代 码 。 谷 歌 官 方 给 出 的 大 部 分 样 例 程序 也 是 通过 Bazel 编 
译 的 。 

在 介绍 完 TensorFlow 所 依赖 的 工具 之 后 ，2.2 节 讲 解 了 TensorFlow 的 不 同安 装 方式 ， 
以 及 不 同安 装 方式 适用 的 不 同 场景 。2.2.1 小 节 中 介绍 的 Docker 是 可 移植 性 最 强 的 一 种 安 
装 方式 ， 它 支持 大 部 分 的 操作 系统 《比如 Windows，Linux 和 Mac OS)。 但 Docker 目前 对 





GD NumPy 是 一 个 科学 计算 的 Python 工具 包 ，http://www.numpy.org 中 给 出 了 更 多 关于 NumPy 的 介绍 。 
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GPU 的 文 持 有 限 ， 而 且 Docker 对 本 地 开发 环境 的 支持 也 不 够 友好 。 在 本 地 最 方便 的 安装 
方式 是 使 用 pip。 使 用 pip 可 以 将 已 经 打包 好 的 安装 包 安 装 到 本 地 。 众 歌 官方 提供 了 不 同 版 
本 TensorFlow 的 pip 安装 包 。 这 种 方式 比较 适合 在 本 地 开发 TensorFlow 的 应 用 程序 ， 但 无 
法 修改 TensorFlow 本 身 。 最 后 一 种 方法 就 是 从 源码 安装 ， 这 种 方式 最 灵活 ， 但 比较 烦琐 。 
一 般 只 有 需要 修改 TensorFlow 本 身 或 者 需要 文 持 比较 特殊 的 GPU 时 才 会 被 用 到 。 

在 本 章 的 最 后 一 节 中 给 出 了 一 个 非常 简短 的 TensorFlow 测试 样 例 。 这 个 样 例 程 序 完 成 
了 两 个 问 量 加 法 的 功能 。 通 过 这 个 样 例 可 以 测试 安装 好 的 TensorFlow 环境 ， 同 时 也 可 以 对 
TensorFlow 有 一 个 直观 的 感受 。 在 第 3 章 中 将 更 加 详细 地 介绍 TensorFlow 中 的 基本 概念 ， 
并 讲解 如 何 通过 TensorFlow 来 实现 一 个 人 简单 神经 网 络 的 训练 过 程 。 
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在 第 2 章 中 介绍 了 如 何 安 装 TensorFlow， 并 且 在 安装 好 的 TensorFlow 中 运行 了 一 个 简 
单 的 向 量 相 加 的 样 例 。 本 章 将 详细 地 介绍 TensorFlow 基本 概念 。 在 本 章 的 前 3 节 中 ， 将 分 
别 介 绍 TensorFlow 的 计算 模型 、 数 据 模型 和 运行 模型 。 通过 这 三 个 角度 对 TensorFlow 的 介 
绍 ， 读 者 可 以 对 TensorFlow 的 工作 原理 有 一 个 大 致 的 了 解 。 在 本 章 的 最 后 一 节 中 ， 将 简单 
介绍 神经 网 络 的 主要 计算 流程 ， 并 介绍 如 何 通过 TensorFlow 实现 这 些 计 算 。 


3.1 TensorFlow 计算 模型 一 一 计算 图 


计算 图 是 TensorFlow 中 最 基本 的 一 个 概念 ，TensorFlow 中 的 所 有 计算 都 会 被 转化 为 计 
算 图 上 的 节点 。3.1.1 小 节 将 详细 介绍 TensorFlow 中 计算 图 的 基本 概念 ， 然 后 在 3.1.2 小 节 
中 将 通过 一 些 简 单 的 样 例 程序 说 明 TensorFlow 计算 图 的 使 用 方法 。 


3.1.1 计算 图 的 概念 


TensorFlow 的 名 字 中 已 经 说 明了 它 最 重要 的 两 个 概念 一 一 Tensor 和 Flow。Tensor 就 是 
张 量 。 张 量 这 个 概念 在 数学 或 者 物理 学 中 可 以 有 不 同 的 解释 ， 但 在 本 书 中 并 不 强调 它 本 身 
的 含义 。 在 TensorFlow 中 ， 张 量 可 以 被 简单 地 理解 为 多 维 数组 ， 在 3.2 节 中 将 对 张 量 做 更 
加 话 细 的 介绍 。 如 果 说 TensorFlow 的 第 一 个 词 Tensor 表明 了 它 的 数据 结构 ， 那 么 Flow 则 
体现 了 它 的 计算 模型 。Flow 翻译 成 中 文 就 是 “ 流 ”， 它 直观 地 表达 了 张 量 之 间 通 过 计算 相 
互 转化 的 过 程 。TensorFlow 是 一 个 通过 计算 图 的 形式 来 表述 计算 的 编程 系统 。TensorFlow 
中 的 每 一 个 计算 都 是 计算 图 上 的 一 个 节点 ， 而 节点 之 间 的 边 描述 了 计算 之 间 的 依赖 关系 。 
图 3-1 展示 了 通过 TensorBoard" 画 出 来 的 第 2 章 中 两 个 向 量 相 加 样 例 的 计算 图 。 





QD) TensorBoard 是 TensorFlow 的 可 视 化 工具 ， 第 9 章 将 详细 介绍 这 个 工具 。 
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图 3-1 通过 TensorBoard 可 视 化 向 量 相 加 的 计算 图 


图 3-1 中 的 每 一 个 节点 都 是 一 个 运算 ， 而 每 一 条 边 代 表 了 计算 之 间 的 依赖 关系 。 如 果 
一 个 运算 的 输入 依赖 于 另 一 个 运算 的 输出 ， 那 么 这 两 个 运算 有 依赖 天 系 。 在 图 3-1 中 ，a 
和 b 这 两 个 常量 不 依赖 任何 其 他 计算 ”。 而 add 计算 则 依赖 读 取 两 个 常量 的 取 值 。 于 是 在 图 
3-1 中 可 以 看 到 有 一 条 从 a 到 add 的 边 和 一 条 从 b 到 add 的 边 。 在 图 3-1 中 ， 没 有 任何 计算 
依赖 add 的 结果 ， 于 是 代表 加 法 的 节点 add 没有 任何 指向 其 他 节点 的 边 。 所 有 TensorFlow 
的 程序 都 可 以 通过 类 似 图 3-1 所 示 的 计算 图 的 形式 来 表示 ， 这 就 是 TensorFlow 的 基本 计算 
模型 。 


3.1.2 ”计算 图 的 使 用 


TensorFlow 程序 一 般 可 以 分 为 两 个 阶段 。 在 第 一 个 阶段 需要 定义 计算 图 中 所 有 的 计算 。 
比如 在 第 2 章 的 向 量 加 法 样 例 程序 中 首先 定义 了 两 个 输入 ， 然 后 定义 了 一 个 计算 来 得 到 它 
们 的 和 。 第 二 个 阶段 为 执行 计算 ， 这 个 阶段 将 在 3.3 节 中 介绍 。 以 下 代码 给 出 了 计算 定义 
阶段 的 样 例 。 

import tensorflow as tf 

a = tf.constant ([1.0, 2.0], name="a") 


b = tf.constant ([2.0, 3.0], name="b") 
result = a+Db 


在 Python 中 一 般 会 采用 “import tensorflow as tf” 的 形式 来 载 入 TensorFlow， 这 样 可 以 
使 用 “tf” 来 代替 “tensorflow” 作 为 模块 名 称 ， 使 得 整个 程序 更 加 简洁 。 这 是 TensorFlow 
中 非常 常用 的 技巧 ， 在 本 书后 面 的 章节 中 将 会 全 部 采用 这 种 加 载 方 式 。 在 这 个 过 程 中 ， 
TensorFlow 会 自动 将 定义 的 计算 转化 为 计算 图 上 的 节点 。 在 TensorFlow 程序 中 ， 系 统 会 目 
动 维护 一 个 默认 的 计算 图 , 通过 tf.get_default graph 函数 可 以 获取 当前 默认 的 计算 图 。 以 下 
代码 示意 了 如 何 获取 默认 计算 图 以 及 如 何 查 看 一 个 运算 所 属 的 计算 图 。 

# 通过 a .graph 可 以 查看 张 量 所 属 的 计算 图 。 因 为 没有 特意 指定 ， 所 以 这 个 计算 图 应 该 等 于 


间 当前 默认 的 计算 图 。 所 以 下 面 这 个 操作 输出 值 为 True。 
print(agraph ls "tf.get deftaulitsgraph()) 


Q@ 为 了 建 模 的 方便 ，TensorFlow 会 将 常量 转化 成 一 种 永远 输出 固定 值 的 运算 。 
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除了 使 用 默认 的 计算 图 ，TensorFlow 支持 通过 Graph 函数 来 生成 新 的 计算 图 。 不 同 计 
算 图 上 的 张 量 和 运 z 算 都 不 会 共享 。 以 下 代码 示意 了 如 何在 不 同 计算 图 上 定义 和 使 用 变量 ®， 


ijmport tensorflow as tf 


gl1 = tf.Graph () 
WIDE assderftauLt():: 
# 在 计算 图 gl 中 定义 变量 “v” 并 设置 初始 值 为 0。 
V = tf.get VarlIable( 
"v", initializer=tf.zeros initializer (shape=[1])) 


g2 = tf.Graph  () 
with g2.as default (): 
# 在 计算 图 g2 中 定义 变量 “v” 并 设置 初始 值 为 1。 
v= tfsGet variable:( 
tit iallizerstft Sonsuini eal zer.(shapestll yd 


# 在 计算 图 gl 中 读 取 变量 “v” 的 取 值 。 

with tf.Session(graph=gl1) as Sess : 
tfeJnitialize all :VarLlablesit) -run() 
withatf,variable:scope(u reuse=True)s 


# 在 计算 图 g1 中， 变量 “v” 的 取 值 应 该 为 0， 所 以 下 面 这 行 会 输出 [0.]。 


print(sesssrun(tf getevariable(s vy),) 


# 在 计算 图 g2 中 读 取 变量 “v” 的 取 值 。 

with tf.Session (graph=g2) as sess: 
tf.initialize all variables ().run() 
with tfevariable®, scope'("/ reusesIrue)s: 


# 在 计算 图 g2 中 ， 变 量 “v” 的 取 值 应 该 为 1， 所 以 下 面 这 行 会 输出 [1 
print (sess.run(tf.get variable("v"))) 
上 面 的 代码 产生 了 两 个 计算 图 ， 每 个 计算 图 中 定义 了 一 个 名 字 为 “v” 的 变量 。 在 计算 
图 gl 中 , 将 v 初始 化 为 0; 在 计算 图 g2 中 ,将 v 初始 化 为 1。 可 以 看 到 当 运 行 不 同 计算 图 
时 ， 变 量 v 的 值 也 是 不 一 样 的 。TensorFlow 中 的 计算 图 不 仅仅 可 以 用 来 隔离 张 量 和 计算 ， 
它 还 提供 了 管理 张 量 和 计算 的 机 制 。 计 算 图 可 以 通过 tfGraph.device 函数 来 指定 运行 计算 
的 设备 。 这 为 TensorFlow 使 用 GPU 提供 了 机 制 。 下 面 的 程序 可 以 将 加 法 计算 跑 在 GPU 上 。 
g = tf.Graph () 
# 指定 计算 运行 的 设备 。 
with g.device('/gpu:0'): 
result = aa 十 


Q@ 第 4 章 将 更 加 详细 地 介绍 TensorFlow 中 变量 的 概念 。 
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具体 使 用 GPU 的 方法 将 在 第 10 章 详 述 。 有 效 地 整理 TensorFlow 程序 中 的 资源 也 是 计 
算 图 的 一 个 重要 功能 。 在 一 个 计算 图 中 ， 可 以 通过 集合 (collection〉 来 管理 不 同类 别 的 资 
源 。 比 如 通过 tf.add to_collection 函数 可 以 将 资源 加 入 一 个 或 多 个 集合 中 ， 然 后 通过 
tf.get_collection 获取 一 个 集合 里 面 的 所 有 资源 。 这 里 的 资源 可 以 是 张 量 、 变 量 或 者 运行 
TensorFlow 程度 所 需要 的 队列 资源 ， 等 等 。 为 了 方便 使 用 ，TensorFlow 也 目 动 管理 了 一 些 
最 常用 的 集合 ， 表 3-1 总 结 了 最 常用 的 几 个 目 动 维护 的 集合 。 


表 3-1 TensorFlow 中 维护 的 集合 列表 












tf.GraphKeys.VARIABLES 所 有 变量 持久 化 TensorFlow 模 型 ” 


可 学 习 的 变量 (一 般 指 神 经 网 络 中 | 模型 训练 、 生 成 模型 可 视 化 内 容 
的 参数 ) 


二 生成 相关 的 张 TRY 








3.2 TensorFlow 数据 模型 一 一 张 量 


3.1 节 介 绍 了 使 用 计算 图 的 模型 来 描述 TensorFlow 中 的 计算 。 这 一 个 节 将 介绍 
TensorFlow 中 另外 一 个 基础 概念 一 一 张 量 。 张 量 是 TensorFlow 管理 数据 的 形式 ， 在 3.2.1 
小 节 中 将 介绍 张 量 的 一 些 基本 属性 。 然 后 在 3.2.2 小 节 中 将 介绍 如 何 通过 张 量 来 保存 和 获取 
TensorFlow 计算 的 结果 。 


3.2.1 ” 张 量 的 概念 


从 TensorFlow 的 名 字 就 可 以 看 出 张 量 (tensor) 是 一 个 很 重要 的 概念 。 在 TensorFlow 
程序 中 ， 所 有 的 数据 都 通过 张 量 的 形式 来 表示 。 从 功能 的 角度 上 看 ， 张 量 可 以 被 简单 理解 
为 多 维 数组 。 其 中 零 阶 张 量 表示 标量 (scalar), 也 就 是 一 个 数 ”; 第 一 阶 张 量 为 向 量 (vector)， 
也 就 是 一 个 一 维 数组 ; 第 n 阶 张 量 可 以 理解 为 一 个 n 维 数 组 。 但 张 量 在 TensorFlow 中 的 实 
现 并 不 是 直接 采用 数组 的 形式 ， 它 只 是 对 TensorFlow 中 运算 结果 的 引用 。 在 张 量 中 并 没有 
真正 保存 数字 ， 它 保存 的 是 如 何 得 到 这 些 数 字 的 计算 过 程 。 还 是 以 同 量 加 法 为 例 ， 当 运行 


@ 张 量 的 类 型 也 可 以 是 字符 囊 ， 但 在 本 书 中 不 做 过 多 的 讨论 。 
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如 下 代码 时 ， 并 不 会 得 到 加 法 的 结果 ， 而 会 得 到 对 结果 的 一 个 引用 。 


import tensorflow as tf 

# tf.constant 是 一 个 计算 ， 这 个 计算 的 结果 为 一 个 张 量 ， 保 存在 变量 a 中 。 
a = tf.constant ([1.0, 2.0], name="a") 

b = tf.constant([2.0, 3.0], name="b") 

result = tf.add(a, b, name="add") 

print result 


BR 


输出 : 
Tensor ("add:0", shape=(2,), dtype=float32) 


| 


从 上 面 的 代码 可 以 看 出 TensorFlow 中 的 张 量 和 NumPy 中 的 数组 不 同 ，TensorFlow 计 
算 的 结果 不 是 一 个 具体 的 数字 ， 而 且 一 个 张 量 的 结构 。 从 上 面 代码 的 运行 结果 可 以 看 出 ， 
一 个 张 量 中 主要 保存 了 三 个 属性 : 名 字 (name)、 维 度 〈shape) 和 类 型 (type)。 

张 量 的 第 一 个 属性 名 字 不 仅 是 一 个 张 量 的 唯一 标识 符 ， 它 同样 也 给 出 了 这 个 张 量 是 如 
何 计 算出 来 的 。 在 3.1.2 小 节 中 介绍 了 TensorFlow 的 计算 都 可 以 通过 计算 图 的 模型 来 建立 ， 
而 计算 图 上 的 每 一 个 节点 代表 了 一 个 计算 ， 寺 算 的 结果 就 保存 在 张 量 之 中 。 所 以 张 量 和 计 
算 图 上 市 点 所 代表 的 计算 结果 是 对 应 的 。 这 样张 量 的 命名 就 可 以 通过 “node:src_output” 的 
形式 来 给 出 。 其 中 node 为 节点 的 名 称 ，src_output 表示 当前 张 量 来 自 节 点 的 第 几 个 输出 。 
比如 上 面 代码 打出 来 的 “add:0” 就 说 明了 result 这 个 张 量 是 计算 节点 “add” 输 出 的 第 一 个 
结果 编号 从 0 开始 )。 

张 量 的 第 二 个 属性 是 张 量 的 维度 (shape )。 这 个 属性 描述 了 一 个 张 量 的 维度 信息 。 比 
如 上 面 样 例 中 shape= (2，, ) 说 明了 张 量 result 是 一 个 一 维 数组 ， 这 个 数组 的 长 度 为 2。 维 
度 是 张 量 一 个 很 重要 的 属性 ， 围 绕 张 量 的 维度 TensorFlow 也 给 出 了 很 多 有 用 的 运算 ， 在 这 
里 先 不 一 一 列举 ， 在 后 面 的 章节 中 将 使 用 到 部 分 运算 。 

张 量 的 第 三 个 属性 是 类 型 〈type)， 每 一 个 张 量 会 有 一 个 唯一 的 类 型 。TensorFlow 会 对 
参与 运算 的 所 有 张 量 进行 类 型 的 检查 ， 当 发 现 类 型 不 匹配 时 会 报错 。 比 如 运行 下 面 这 段 程 
序 时 就 会 得 到 类 型 不 匹配 的 错误 : 

import tensorflow as tf 

a = tECoOnstante( [ly 2 name= Vay,) 


DbD: =F 和 tCoOrnstant (12:0 .3:0 name=- be) 
result = aa 十 了 


这 段 程序 和 上 面 的 样 例 基 本 一 模 一 样 , 唯一 个 同 的 是 把 其 中 一 个 加 数 的 小 数 点 去 掉 了 。 
这 会 使 得 加 数 a 的 类 型 为 整数 而 加 数 b 的 类 型 为 实数 ， 这 样 程序 会 报 类 型 不 匹配 的 错误 : 


ValueError: Tensor conversion requested dtype int32 for Tensor with dtype 
rioato2 = Tensor("b 0 Snapne=(2Zy)r dtvpe=f Loat32) 
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如 果 将 第 一 个 加 数 指定 成 实数 类 型 “a = tf constant([1, 2], name="a", dtype=tf.float32)”, 
那么 两 个 加 数 的 类 型 相同 就 不 会 报错 了 。 如 果 不 指定 类 型 ，TensorFlow 会 给 出 默认 的 类 型 ， 
比如 不 带 小 数 点 的 数 会 被 默认 为 int32， 带 小 数 点 的 会 默认 为 float32。 因 为 使 用 默认 类 型 有 
可 能 会 导致 潜在 的 类 型 不 匹配 问题 ， 所 以 一 般 建议 通过 指定 dtype 来 明确 指出 变量 或 者 常 
” 量 的 类 型 。TensorFlow 支持 14 种 不 同 的 类 型 ， 主 要 包括 了 实数 (tf.float32、 tf.float64)、 
整数 (tfint8g、tfint16、tfint32、tfint64、tfuint8)、 布 尔 型 ( 攻 bool) 和 复数 (tf.complex64、 
tf.complex128).。 


3.2.2 ” 张 量 的 使 用 


和 TensorFlow 的 计算 模型 相 比 ，TensorFlow 的 数据 模型 相对 比较 简单 。 张 量 使 用 主要 
可 以 总 结 为 两 大 类 。 


第 一 类 用 途 是 对 中 间 计 算 结 果 的 引用 。 当 一 个 计算 包含 很 多 中 间 绪 果 时 ， 使 用 张 量 可 
以 大 大 提高 代码 的 可 读 性 。 以 下 为 使 用 张 量 和 不 使 用 张 量 记录 中 间 绪 果 来 完成 回 量 相 加 的 
功能 的 代码 对 比 。 

# 使 用 张 量 记录 中 间 结果 

a = tf.constant([1.0, 2.0], name="a") 


DE=Rtftconstant( [2 a0 0 name=, d,s) 
result = aa 二 bp 


# 直接 计算 向 量 的 和 ,这样 可 读 性 会 比较 差 。 
result = tf. constant({[130r .2-017 name="a") + 
tf constaneE(Cl2 0 3 0 name= Ds) 


从 上 面 的 样 例 程 序 可 以 看 到 a 和 bb 其 实 就 是 对 常量 生成 这 个 运算 结果 的 引用 ， 这 样 在 
做 加 法 时 就 可 以 直接 使 用 这 两 个 变量 ， 而 不 需要 再 去 生成 这 些 常量 。 当 计算 的 复杂 度 增 加 
时 《比如 在 构建 深层 神经 网 络 时 ) 通过 张 量 来 引用 计算 的 中 间 结 果 可 以 使 代码 的 可 阅读 性 
大 大 提升 。 同 时 通过 张 量 来 存储 中 间 结 果 ， 这 样 可 以 方便 获取 中 间 结 果 。 比 如 在 卷 积 神经 
网 络 " 中 ， 卷 积 层 或 者 池 化 层 有 可 能 改变 张 量 的 维度 ， 通 过 result.get_shape 函数 来 获取 结果 
张 量 的 维度 信息 可 以 免 去 人 工 计 算 的 贱 烦 。 

使 用 张 量 的 第 二 类 情况 是 当 计 算 图 构造 完成 之 后 ， 张 量 可 以 用 来 获得 计算 结果 ， 也 就 
是 得 到 真实 的 数字 。 虽 然 张 量 本 身 没 有 存储 具体 的 数字 ， 但 是 通过 下 面 3.3 小 节 中 介绍 的 
会 话 〈session )， 就 可 以 得 到 这 些 具 体 的 数字 。 比 如 在 上 述 代 码 中 ， 可 以 使 用 
tf.Session().run(result) 语 句 来 得 到 计算 结果 。 


QD 第 6 章 将 介绍 卷 积 神经 网 络 。 
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3.3 TensorFlow 运行 模型 一 一 会 话 


前 面 的 两 节 介 绍 了 TensorFlow 是 如 何 组 织 数 据 和 运算 的 。 本 节 将 介绍 如 何 使 用 
TensorFlow 中 的 会 话 (session) 来 执行 定义 好 的 运算 。 会 话 拥 有 并 管理 TensorFlow 程序 运 
行 时 的 所 有 资源 。 当 所 有 计算 完成 之 后 需要 关闭 会 话 来 帮助 系统 回收 资源 ， 否 则 就 可 能 
现 资源 泄漏 的 问题 。TensorFlow 中 使 用 会 话 的 模式 一 般 有 两 种 ， 第 一 种 模式 需要 明确 调用 
会 话 生 成 函数 和 关闭 会 话 函 数 ， 这 种 模式 的 代码 流程 如 下 。 

# 创建 一 个 会 话 。 

sess = tf.Session() 

# 使 用 这 个 创建 好 的 会 话 来 得 到 关心 的 运算 的 结果 。 比 如 可 以 调用 sess .run (result)， 

# 来 得 到 3 .1 节 样 例 中 张 量 result 的 取 值 。 

# 尖 了 会话 全 得 本 次 运行 中 使 用 到 的 资源 可 以 被 释放 . 

sess.close() 

使 用 这 种 模式 时 ， 在 所 有 计算 完成 之 后 ， 需 要 明确 调用 Session.close 函数 来 天 闭会 话 
并 释放 资源 。 然 而 ， 当 程序 因为 异常 而 退出 时 ， 关 闭会 话 的 函数 可 能 就 不 会 被 执行 从 而 导 
致 资源 泄漏 。 为 了 解决 异常 退出 时 资源 释放 的 问题 ，TensorFlow 可 以 通过 Python 的 上 下 文 
管理 器 来 使 用 会 话 。 以 下 代码 展示 了 如 何 使 用 这 种 模式 。 

# 创建 一 个 会 话 ， 并 通过 Python 中 的 上 下 文 管理 器 来 管理 这 个 会 话 。 

with tf.Session() as sess: 

# 使 用 这 创建 好 的 会 话 来 计算 关心 的 结果 。 
SO 和 SS (se 

# 不 需要 音调 用 oe () ”函数 来 关闭 会 话 ， 

# 当 上 下 文 退出 时 会 话 关闭 和 资源 释放 也 自动 完成 了 。 

通过 Python 上 下 文 管理 器 的 机 制 ， 只 要 将 所 有 的 计算 放 在 “with” 的 内 部 残 可 以 。 当 
上 下 文 管理 器 退出 时 候 会 自动 释放 所 有 资源 。 这 样 既 解 决 了 因为 异常 退出 时 资源 释放 的 问 
题 ， 同 时 也 解决 了 环 记 调用 Session.close 函数 而 产生 的 资源 泄 。 

3.1 节 介 绍 过 TensorFlow 会 自动 生成 一 个 默认 的 计算 图 ， 如 果 没 有 特殊 指定 ， 运 算 会 目 
动 加 入 这 个 计算 图 中 。TensorFlow 中 的 会 话 也 有 类 似 的 机 制 , 但 TensorFlow 不 会 自动 生成 默 
认 的 会 话 ,而 是 需要 手动 指定 。 当 默认 的 会 话 被 指定 之 后 可 以 通过 tf.Tensor.eval 函数 来 计算 
一 个 张 量 的 取 值 。 以 下 代码 展示 了 通过 设 定 默 认 会 话 计算 张 量 的 取 值 。 

sess = tf.Session () 


with sess.as default (): 
print (result .eval ()) 


以 下 代码 也 可 以 完成 相同 的 功能 。 
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sess = tf.Session() 


# 下 面 的 两 个 命令 有 相同 的 功能 。 
print (sess.run (result)) 
print (result.eval (session=sess)) 


在 交互 式 环境 下 《比如 Python 脚本 或 者 Jupyter 的 编辑 器 下 )， 通 过 设置 默认 会 话 的 方 
式 来 获取 张 量 的 取 值 更 加 方便 。 所 以 TensorFlow 提供 了 一 种 在 交互 式 环境 下 直接 构建 默认 
会 话 的 函数 。 这 个 函数 就 是 tInteractiveSession。 使 用 这 个 函数 会 自动 将 生成 的 会 话 注册 为 
默认 会 话 。 以 下 代码 展示 了 给 InteractiveSession 函数 的 用 法 。 

sess = tf. InteractiveSession () 


print (result.eval ()) 
sess.close() 


通过 给 InteractiveSession 函数 可 以 省 去 将 产生 的 会 话 注册 为 默认 会 话 的 过 程 。 无 论 使 
用 哪 种 方法 都 可 以 通过 ConfigProto Protocol Buffere 来 配置 需要 生成 的 会 话 。 下 面 给 出 了 通 
过 ConfigProto 配置 会 话 的 方法 : 

config = tf.ConfigProto(allow soft placement=True, 


log device placement=True) 


sessl tf. InteractijveSession (config=config) 


sess2 


通过 ConfigProto 可 以 配置 类 似 并 行 的 线程 数 、GPU 分 配 策 略 、 运 算 超 时 时 间 等 参数 。 
在 这 些 参数 中 ， 最 常 使 用 的 有 两 个 。 第 一 个 是 allow_soft_placement， 这 是 一 个 布尔 型 的 参 
数 ， 当 它 为 True 的 时 候 ， 在 以 下 任意 一 个 条 件 成 立 的 时 候 ，GPU 上 的 运算 可 以 放 到 CPU 
上 进行 : 

1. 运算 无 法 在 GPU 上 执行 。 

2. 没有 GPU 资源 (比如 运算 被 指定 在 第 二 个 GPU 上 运行 ,但 是 机 器 只 有 一 个 GPU)。 

3. 运算 输入 包含 对 CPU 计算 结果 的 引用 。 

这 个 参数 的 默认 值 为 False， 但 是 为 了 使 得 代码 的 可 移植 性 更 强 ， 在 有 GPU 的 环境 下 
这 个 参数 一 般 会 被 设置 为 True。 不 同 的 GPU 驱动 版 本 可 能 对 计算 的 支持 有 了 上 略微 的 区 别 , 通 
过 将 allow_soft_placement 参数 设 为 True， 当 某 些 运 算 无 法 被 当前 GPU 支持 时 ， 可 以 自动 
调整 到 CPU 上 ， 而 不 是 报错 。 类 似 的 ， 通 过 将 这 个 参数 设置 为 True 可 以 让 程序 在 拥有 不 
同 数量 的 GPU 机 器 上 顺利 运行 。 

第 二 个 使 用 得 比较 多 的 配置 参数 是 log_device_placement。 这 也 是 一 个 布尔 型 的 参数 ， 
当 它 为 True 时 日 志 中 将 会 记录 每 个 节点 被 安排 在 了 哪个 设备 上 以 方便 调试 。 而 在 生产 环境 
中 将 这 个 参数 设置 为 False 可 以 减少 日 志 量 。 


tf. Session (config=config) 


(GD Protocol Buffer 在 第 2 章 中 有 介绍 。 
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3.4 TensorFlow 实现 神经 网 络 


上 面 3 节 从 不 同 角度 介绍 了 TensorFlow 的 基本 概念 。 在 这 一 节 中 ， 将 结合 神经 网 络 的 
功能 进一步 介绍 如 何 通过 TensorFlow 来 实现 神经 网 络 。 首 先 3.4.1 小 市 将 通过 TensorFlow 
游乐 场 来 简单 介绍 神经 网 络 的 主要 功能 以 及 计算 流程 。 然 后 3.4.2 小 节 将 介绍 神经 网 络 的 前 
向 传播 算法 (forward-propagation)， 并 给 出 使 用 TensorFlow 的 代码 实现 。 接 看 3.4.3 小 节 将 
介绍 如 何 通 过 TensorFlow 中 的 变量 来 表达 神经 网 络 的 参数 。 在 3.4.4 小 节 中 将 介绍 神经 区 
络 反 向 传播 (back-propagation) 算法 的 原理 以 及 TensorFlow 对 反问 传播 算法 的 文 持 。 最 后 
在 3.4.5 小 节 中 将 给 出 一 个 完整 的 TensorFlow 程序 在 随机 的 数据 上 训练 一 个 人 简单 的 神经 网 络 。 


3.4.1 TensorFlow 游乐 场 及 神经 网 络 简 介 


这 一 小 节 将 通过 TensorFlow 游乐 场 来 快速 介绍 神经 网 络 的 主要 功能 。TensorFlow 游乐 
场 (http:/playground.tensorflow.org) 是 一 个 通过 网 页 浏览 器 就 可 以 训练 的 简单 神经 网 络 并 
实现 了 可 视 化 训练 过 程 的 工具 。 图 3-2 给 出 了 TensorFlow 游乐 场 默认 设置 的 规 图 。 


Tiniker VWithi a Neural Network Right Here in Your Browser. 


Bont Worry; You Cant Brearlt. We Promise. 


000,000 


FEATURES OUTRUT 
Vrsls 多 所 4 ; 起 4 . PTT PT . ee w 


了 est1o35 0.507 
io 356 


Xt+ 


二 要 
惟 - 3 





图 3-2 ”TensorFlow 游乐 场 界面 截图 


从 图 3-2 中 可 以 看 出 ，TensorFlow 游乐 场 的 左 侧 提供 了 4 个 不 同 的 数据 集 来 测试 神经 
网 络 。 默 认 的 数据 为 左上 角 被 框 出 来 的 那个 。 被 选中 的 数据 也 会 显示 在 图 3-2 中 最 右边 的 
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“OUTPUT” 栏 下 。 在 这 个 数据 中 ， 可 以 看 到 一 个 二 维 平面 上 有 黑色 或 者 灰色 的 点 ， 每 一 个 
小 点 代表 了 一 个 样 例 ， 而 点 的 颜色 代表 了 样 例 的 标签 。 因 为 点 的 颜色 只 有 两 种 ， 所 以 这 是 
一 个 二 分 类 的 问题 。 在 这 里 举 一 个 例子 来 说 明 这 个 数据 可 以 代表 的 实际 问题 。 假 设 需要 判 
断 某 工厂 生产 的 零件 是 否 合格 ， 那 么 灰色 的 点 可 以 表示 所 有 合格 的 零件 而 黑色 的 表示 不 合 
格 的 零件 。 这 样 判 断 一 个 零件 是 否 合格 就 变 成 了 区 分 点 的 颜色 。 

为 了 将 一 个 实际 问题 对 应 到 平面 上 不 同 颜色 点 的 划分 ， 还 需要 将 实际 问题 中 的 实体 ， 
比如 上 述 例子 中 的 零件 ， 变 成 平面 上 的 一 个 点 "。 这 就 是 特征 提取 解决 的 问题 。 还 是 以 零件 
为 例 ， 可 以 用 零件 的 长 度 和 质量 来 大 致 描述 一 个 零件 。 这 样 一 个 物理 意义 上 的 零件 就 可 以 
被 转化 成 长 度 和 质量 这 两 个 数字 。 在 机 器 学 习 中 ， 所 有 用 于 描述 实体 的 数字 的 组 合 就 是 一 
个 实体 的 特征 向 量 〈feature vector)。 在 第 1 章 中 介绍 过 ， 特 征 向 量 的 提取 对 机 器 学 习 的 效 
果 至 关 重 要 ， 如 何 提取 特征 本 书 不 再 缆 述 。 通 过 特征 提取 ， 就 可 以 将 实际 问题 中 的 实体 转 
化 为 空间 中 的 点 。 假 设 使 用 长 度 和 质量 作为 一 个 零件 的 特征 癌 量 ， 那 么 每 个 零件 就 是 二 维 
平面 上 的 一 个 点 。TensorFlow 游乐 场 中 FEATURES 一 栏 对 应 了 特征 问 量 。 在 本 小 节 的 样 例 
中 ， 可 以 认为 xj 代表 一 个 零件 的 长 度 ， 而 xs 代 表 零 件 的 质量 。 

特征 同 量 是 神经 网 络 的 输入 ， 神 经 网 络 的 主体 结构 显示 在 了 图 3-2 的 中 间 位 置 。 目 前 
主流 的 神经 网 络 都 是 分 层 的 结构 ， 第 一 层 是 输入 层 ， 代 表 特 征 同 量 中 每 一 个 特征 的 取 值 。 
比如 如 果 一 个 零件 的 长 度 是 0.5， 那 么 xj 的 值 就 是 0.5。 同 一 层 的 节点 不 会 相互 连接 ， 而 且 
每 一 层 只 和 下 一 层 连 接 ， 直 到 最 后 一 层 作为 输出 层 得 到 计算 的 结果 *。 在 二 分 类 问题 中 ， 比 
如 判断 零件 是 否 合格 ， 神 经 网 络 的 输出 层 往 往 只 包含 一 个 节点 ， 而 这 个 节点 会 输出 一 个 实 
数值 。 通 过 这 个 输出 值 和 一 个 事先 设 定 的 阔 值 ， 就 可 以 得 到 最 后 的 分 类 结果 。 以 判断 零件 
合格 为 例 ， 可 以 认为 当 输 出 的 数值 大 于 0 时 ， 给 出 的 判断 结果 是 零件 合格 ， 反 之 则 零件 不 
合格 。 一 般 可 以 认为 当 输 出 值 离 闪 值 越 远 时 得 到 的 答案 越 可 靠 。 

在 输入 和 输出 层 之 间 的 神经 网 络 叫做 隐藏 层 ， 一 般 一 个 神经 网 络 的 隐藏 层 越 多 ， 这 个 
神经 网 络 越 “ 深 ”。 而 所 谓 深 度 学 习 中 的 这 个 “深度 ”和 神经 网 络 的 层 数 也 是 密切 相关 的 。 
在 TensorFlow 游乐 场 中 可 以 通过 点 击 “+” 或 者 “-” 来 增加 /减少 神经 网 络 隐藏 层 的 数量 。 
除了 可 以 选择 神经 网 络 的 深度 ，TensorFlow 游乐 场 也 支持 选择 神经 网 络 每 一 层 的 节点 数 以 
及 学 习 率 〈learning rate)、 激 活 函 数 (activation)、 正 则 化 (regularization)。 如 何 使 用 这 些 
参数 将 在 后 面 的 章节 中 讨论 。 在 本 小 节 中 都 直接 使 用 TensorFlow 游乐 场 默 认 的 设置 。 当 所 
有 配置 都 选 好 之 后 ， 可 以 通过 左上 角 的 开始 标志 “人 @ ”来 训练 这 个 神经 网 络 。 图 3-3 中 给 
出 了 和 迭代 训练 100 轮 之 后 的 情况 。 


J 在 真实 问题 中 ， 一 般 会 从 实体 中 抽取 更 多 的 特征 ， 所 以 一 个 实体 会 被 表示 为 高 维 空间 中 的 点 。 
他 有 一 些 神经 网 络 是 可 以 跨 层 连接 的 ， 但 目前 大 部 分 神经 网 络 结构 中 都 只 是 相 邻 两 层 有 连接 。 
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图 3-3 ”TensorFlow 游乐 场 训练 100 轮 之 后 的 截图 


如 何 训练 一 个 神经 网 络 将 在 3.4.4 小 节 中 介绍 ， 在 这 里 主要 介绍 如 何 解 读 TensorFlow 
游乐 场 的 训练 结果 。 在 图 3-3 中 ， 一 个 小 格子 代表 神经 网 络 中 的 一 个 节点 ， 而 边 代 表 节 点 
之 间 的 连接 。 每 一 个 节点 和 边 都 被 涂 上 了 或 深 或 浅 的 颜色 ， 但 边 下 训 广 全 和 和 榴 守 中 的 着 
含义 有 略微 的 区 别 。 每 一 条 边 代 表 了 神经 网 络 中 的 一 个 参数 ， 它 可 以 是 任意 实数 。 神 经 网 
络 就 是 通过 对 参数 的 合理 设置 来 解决 分 类 或 者 回归 问题 的 。 边 上 的 颜色 体现 了 这 个 参数 的 
取 值 ， 当 边 的 颜色 越 深 时 ， 这 个 参数 取 值 的 绝对 值 越 大 ， 当 边 的 颜色 接近 白色 时 ， 这 个 参 
数 的 取 值 接近 于 09。 

每 一 个 节点 上 的 颜色 代表 了 这 个 节点 的 区 分 平面 。 有 具体 来 说 ， 如 果 把 这 个 平面 当成 一 
个 卡 迪 尔 坐 标 系 ， 这 个 平面 上 的 每 一 个 点 就 代表 了 《xj，x2) 的 一 种 取 值 。 而 这 个 点 的 颜色 
就 体现 了 x,/，xz 在 这 种 取 值 下 这 个 节点 的 输出 值 。 和 边 类 似 ， 当 节点 的 输出 值 的 绝对 信 越 
大 时 ， 颜 色 越 深 >。 下 面 将 具体 解读 输入 层 xj 所 代表 的 节点 。 从 图 3-3 中 可 以 看 到 xj 这 个 
节点 的 区 分 平面 就 是 y 轴 。 因 为 这 个 节点 的 输出 就 是 xj 本 身 的 值 ， 所 以 当 xj 小 于 0 时 ， 这 
个 节点 的 输出 就 是 负数 ， 而 xj 大 于 0 时 输出 的 就 是 正 数 。 于 是 y 轴 的 左 侧 都 为 灰色 ， 而 右 
侧 都 为 黑色 %。 图 3-3 中 其 他 节点 可 以 类 似 的 解读 。 唯 一 特殊 的 是 最 右边 OUTPUT 栏 下 的 


@ 在 TensorFlow 游乐 场 网 站 上 ， 边 的 颜色 有 黄色 〈 文 中 浅 色 部 分 ) 和 蓝 色 〈 文 中 深 色 部 分 ) 的 区 别 ， 黄 
色 越 深 表 示 负 得 越 大 ， 蓝 色 越 深 表 示 正 得 越 大 。 
@ 类 似 边 上 的 颜色 ，TensorFlow 游乐 场 网 站 中 ， 点 上 的 颜色 也 有 黄色 〈 文 中 浅 色 部 分 ) 和 蓝 色 文中 深 
色 部 分 )， 和 边 上 颜色 类 似 ， 黄 色 越 深 表 示 负 得 越 大 ， 赣 色 越 深 表 示 正 得 越 大 。 
@ 在 TensorFlow 游乐 场 中 ，” 轴 左 侧 为 黄色 〈 文 中 浅 色 部 分 )， 右 侧 为 蓝 色 〈 文 中 深 色 部 分 )。 
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笨 出 节点 。 这 个 节点 中 除了 显示 了 区 分 平面 之 外 ， 还 显示 了 训练 数据 ， 也 就 是 硕 刻 通过 神 
经 网 络 区 分 的 数据 点 。 从 图 3-3 中 可 以 看 到 ， 经 过 两 层 的 隐藏 层 ， 输 出 节点 的 区 分 平面 已 
经 可 以 完全 区 分 不 同 颜色 的 数据 点 。 

综 上 所 述 ， 使 用 神经 网 络 解决 分 类 问题 主要 可 以 分 为 以 下 4 个 步骤 。 

1. 提取 问题 中 实体 的 特征 问 量 作为 神经 网 络 的 输入 。 不 同 的 实体 可 以 提取 不 同 的 特征 问 
量 ， 本 书 中 将 不 具体 介绍 。 本 书 假设 作为 神经 网 络 输 入 的 特征 癌 量 可 以 直接 从 数据 集中 获取 。 

2. 定义 神经 网 络 的 结构 ， 并 定义 如 何 从 神经 网 络 的 输入 得 到 输出 。 这 个 过 程 就 是 神经 
网 络 的 前 同 传 播 算法 ， 在 3.4.2 小 节 中 将 详细 介绍 。 

3. 通过 训练 数据 来 调整 神经 网 络 中 参数 的 取 值 ， 这 就 是 训练 神经 网 络 的 过 程 。3.4.3 
小 节 将 先 介 绍 TensorFlow 中 表示 神经 网 络 参数 的 方法 ， 然 后 3.4.4 小 节 将 大 致 介绍 神经 网 
络 优化 算法 的 框架 ， 并 介绍 如 何 通 过 TensorFlow 实现 这 个 框架 。 

4. 使 用 训练 好 的 神经 网 络 来 预测 未 知 的 数据 。 这 个 过 程 和 步骤 2 中 的 前 问 传 播 算法 一 
致 ， 本 书 不 再 资 述 。 

下 面 的 几 个 小 节 将 有 具体 介绍 如 何 使 用 TensorFlow 来 实现 神经 网 络 中 的 不 同步 又 。 最 后 
在 3.4.5 小 节 将 给 出 一 个 完成 的 程序 来 训练 神经 网 络 。 


3.4.2 ”前 问 传 播 算 法 简介 


在 3.4.1 小 节 中 傈 单 地 介绍 了 神经 网 络 可 以 将 输入 的 特征 向 量 经 过 层 层 推导 得 到 最 后 
的 输出 ， 并 通过 这 些 输出 解决 分 类 或 者 回归 问题 。 那 么 神经 网 络 的 输出 是 如 何 得 到 的 ? 在 
这 一 小 节 中 将 详细 介绍 解决 这 个 问题 的 算法 一 一 前 向 传播 算法 。 不 同 的 神经 网 络 结构 前 向 传 
播 的 方式 也 不 一 样 ， 本 小 节 将 介绍 最 简单 的 全 连接 网 络 结构 的 前 向 传播 算法 ， 并 且 将 展示 如 何 
通过 TensorFlow 实现 这 个 算法 。 为 了 介绍 神经 网 络 的 前 向 传播 算法 ， 需 要 先 了 解 神 经 元 的 结 
构 。 神 经 元 是 构成 一 个 神经 网 络 的 最 小 单元 ， 图 3-4 显示 了 一 个 最 简单 的 神经 元 结构 。 


X0W0 
DXiWwi 
i 
CCC 一 一 i 
X1W1 
X2W2 


图 3-4 神经 元 结构 示意 图 
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从 图 3-4 可 以 看 出 ， 一 个 神经 元 有 多 个 输入 和 一 个 输出 。 每 个 神经 元 的 输入 既 可 以 是 
其 他 神经 元 的 输出 ， 也 可 以 是 整个 神经 网 络 的 输入 。 所 谓 神 经 网 络 的 结构 束 是 指 的 不 同 神 
经 元 之 间 的 连接 结构 。 如 图 3-4 所 示 ， 一 个 最 简单 的 神经 元 结构 的 输出 融 是 所 有 输入 的 加 
权 和 "， 而 不 同 输入 的 权重 就 是 神经 元 的 参数 。 神 经 网 络 的 优化 过 程 就 是 优化 神经 元 中 参数 
取 值 的 过 程 ， 在 后 面 的 章节 中 将 具体 介绍 。 本 小 节 将 重点 介绍 神经 网 络 的 前 同 传播 过 程 。 
3-5 给 出 了 一 个 简单 的 判断 零件 是 否 合格 的 三 层 全 连接 神经 网 络 。 之 所 以 称 之 为 全 连接 
神经 网 络 是 因为 相 邻 两 层 之 间 任 意 两 个 节点 之 间 都 有 连接 。 这 也 是 为 了 将 这 样 的 网 络 结构 
和 后 面 章 节 中 将 要 介绍 的 卷 积 层 、LSTM 结构 区 分 。 图 3-5 中 除了 输入 层 之 外 的 所 及 点 
都 代表 了 一 个 神经 元 的 结构 。 本 小 节 将 通过 这 个 样 例 来 解释 前 四 传播 的 整个 过 程 。 


ap RE 
| 


障 减 技 输出 层 


输入 层 





图 3-5 判断 零件 是 否 合格 的 三 层 神 经 网 络 结构 图 


计算 神经 网 络 的 前 向 传播 结果 需要 三 部 分 信息 。 第 一 个 部 分 是 神经 网 络 的 输入 ， 这 个 
输入 就 是 从 实体 中 提取 的 特征 向 量 。 比 如 在 图 3-5 中 有 两 个 输入 ， 一 个 是 零件 的 长 度 2 
一 个 是 零件 的 质量 x。。 第 二 个 部 分 为 神经 网 络 的 连接 结构 。 神 经 网 络 是 由 和 神经 元 构成 的 ， 
神经 网 络 的 结构 给 出 不 同 神经 元 之 间 输 入 输出 的 连接 关系 。 神 经 网 络 中 的 神经 元 也 可 以 称 
之 为 节点 ， 在 本 书 之 后 的 章节 中 将 统一 使 用 节点 来 指 代 神 经 网 络 中 的 神经 元 。 在 图 3-5 中 ， 
au 节 点 有 两 个 输入 ， 他 们 分 别 是 xi 和 x 的 输出 。 而 ari 的 输出 则 是 市 点 yy 的 输入 。 最 后 一 


Q 更 加 复杂 的 神经 元 结构 将 在 第 4 章 中 介绍 。 
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个 部 分 是 每 个 神经 元 中 的 参数 。 在 图 3-5 中 用 丈 来 表示 神经 元 中 的 参数 。 丈 的 上 标 表明 了 
神经 网 络 的 层 数 ， 比 如 了 0 表示 第 一 层 节点 的 参数 ， 而 2) 表示 第 二 层 节点 的 参数 。 球 的 
下 标 表明 了 连接 节点 编号 ， 比 如 砚 由 表示 连接 mm 和 ms 节点 的 边 上 的 权重 。 如 何 优化 每 一 
条 边 的 权重 将 在 下 面 的 章节 中 介绍 ， 这 一 节 假 设 这 些 权重 是 已 知 的 。 给 定神 经 网 络 的 输入 ， 
神经 网 络 的 结构 以 及 边 上 权重 ， 就 可 以 通过 前 向 传播 算法 来 计算 出 神经 网 络 的 输出 。 图 3-6 
展示 了 这 个 神经 网 络 前 向 传播 的 过 程 。 


Qi1 = Wx 十 WD x2 = 0.41 


Xi =0.7 


| 输入 层 绚 滤 层 输出 层 | 
| 
] 
| 
{ 






、 











零件 长 度 (2) (2) (2) 
y= Wi at Wz 0az + Ws qia 
qr = Wx + WS x = —0.38 本 
(2) _ 
pe i Wi = 0.1 0.116 > 0 二 侣 和 格 
四 WY = 一 05 
零件 质 萤 





图 3-6 神经 网 络 前 向 传播 算法 示意 图 


3-6 给 出 了 输入 层 的 取 值 x1=0.7 和 x2=0.9。 从 输入 层 开始 一 层 一 层 地 使 用 向 前 传播 算 
法 。 朋 先 隐藏 层 中 有 3 个 节点， 每 一 个 节点 的 取 值 都 是 输入 层 取 值 的 加 权 和 和。 下面 给 出 了 
U11 取 值 的 详细 计算 过 程 : 

a = Wx + WYx2 =0.7x0.2+0.9x0.3=0.14+0.27=0.41 

aa 和 ai3 也 可 以 通过 类 似 的 方法 计算 得 到 ， 图 3-6 中 也 给 出 了 具体 的 计算 公式 。 在 得 
到 第 一 层 证 点 的 取 值 之 后 ， 可 以 进一步 推导 得 到 输出 层 的 取 值 。 类 似 的， 输出 层 中 节操 的 
取 值 就 是 第 一 层 的 加 权 和 |: 

y=W a + Wa + Wi3 a3 = 0.41x0.6+(-0.38)x0.1+ 0.46x (-0.2) 
= 0.246+(-0.038) +(0.092) = 0.116 

因为 这 个 输出 值 大 于 阔 值 0， 所 以 在 这 个 样 例 中 最 后 给 出 的 答案 又 是 : 这 个 产品 是 合 
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格 的 。 这 就 是 整个 前 同 传 播 的 算法 。 前 疝 传 播 算法 可 以 表示 为 矩阵 乘法 。 将 输入 xi,xy 组 织 
成 一 个 1x2 的 矩阵 x=[xi,x2]， 而 歼 呈 组 织 成 一 个 2x3 的 矩阵 ; 
ke: ma 号 
We Wo Wes 
这 样 通 过 矩阵 乘法 可 以 得 到 隐藏 层 三 个 节点 所 组 成 的 向 量 取 值 : 
Wl) Wl mW 


] ] 
a =[an,ow,0a]= XW" =[n,w] wo WY wo 
2,1 2,2 2,3 





1 1 1 I 1 1 
-> [Wt n Wi x2, Wi x 党 Wi 272 ， Ws Wi3x2] 


类 似 的 输出 层 可 以 表示 为 : 
Wt 
[中 = 2 [a11, 412, 913] Wo [Wi an Wi a12 Wi'3’a13] 
2 
Wa 


这 样 束 将 前 站 传播 算法 通过 和 矩阵 乘法 的 方式 表达 出 来 了 。 在 TensorFlow 中 矩阵 乘法 是 
非常 容易 实现 的 。 以 下 TensorFlow 程序 实现 了 图 3-5 所 示 神 经 网 络 的 前 向 传播 过 程 。 


tf.matmul (x, wl1) 
tf.matmul (a, w2) 


a 
Y 


其 中 给 matmul 实现 了 和 矩阵 乘法 的 功能 。 到 此 为 止 已 经 详细 地 介绍 了 神经 网 络 的 前 向 传 
播 算法 ， 并 且 给 出 了 TensorFlow 程序 来 实现 这 个 过 程 。 在 之 后 的 章节 中 会 继续 介绍 偏 置 
(bias)、 激 活 函 数 〈activation function) 等 更 加 复杂 的 神经 元 结构 。 也 会 介绍 卷 积 神经 网 络 ， 
LSTM 结构 等 更 加 复杂 的 神经 网 络 结构 。 对 于 这 些 更 加 复杂 的 神经 网 络 ，TensorFlow 也 提 
供 了 很 好 的 支持 ， 后 面 的 章节 中 再 详细 介绍 。 


3.4.3 ”神经 网 络 参数 与 TensorFlow 变量 


神经 网 络 中 的 参数 是 神经 网 络 实现 分 类 或 者 回归 问题 中 重要 的 部 分 。 本 小 节 将 更 加 具 
体 地 介绍 TensorFlow 是 如 何 组 织 、 保 存 以 及 使 用 神经 网 络 中 的 参数 的 。 在 TensorFlow 中 ， 
变量 (tf.Variable 〉 的 作用 就 是 保存 和 更 新 神经 网 络 中 的 参数 。 和 其 他 编程 语言 类 似 ， 
TensorFlow 中 的 变量 也 需要 指定 初始 值 。 因 为 在 神经 网 络 中 ， 给 参数 赋予 随机 初始 值 最 为 
第 见 ， 所 以 一 般 也 使 用 随机 数 给 TensorFlow 中 的 变量 初始 化 。 下 面 一 段 代码 给 出 了 一 种 在 
TensorFlow 中 声 明 一 个 2x3 的 矩阵 变量 的 方法 : 

weights = tf.Variable (tf.random normal([2, 3], stddev=2)) 
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这 段 代 码 调用 了 TensorFlow 变量 的 声明 函数 tf.Variable。 在 变量 声明 函数 中 给 出 了 初 
始 化 这 个 变量 的 方法 。TensorFlow 中 变量 的 初始 值 可 以 设置 成 随机 数 、 常 数 或 者 是 通过 其 
他 变量 的 初始 值 计算 得 到 。 在 上 面 的 样 例 中 ，tf.random normal([2, 3], stddev=2) 会 产生 一 个 
2x3 的 矩阵 ， 和 矩阵 中 的 元 素 是 均值 为 0， 标准 差 为 2 的 随机 数 。tf.random _normal 函数 可 以 
通过 参数 mean 来 指定 平均 值 ， 在 没有 指定 时 默认 为 0。 通 过 满足 正太 分 布 的 随机 数 来 初始 
化 神经 网 络 中 的 参数 是 一 个 非常 常用 的 方法 。 除 了 正太 分 布 的 随机 数 ，TensorFlow 还 提供 
了 一 些 其 他 的 随机 数 生成 器 ， 表 3-2 列 出 了 TensorFlow 目前 文 持 的 所 有 随机 数 生 成 器 。 


表 3-2 TensorFlow 随机 数 生成 函数 


tf.truncated _ normal 正太 分 布 ， 但 如 果 随 机 出 来 的 值 偏离 平均 值 超过 2 个 | 平均 值 、 标 准 差 、 取 值 类 型 
标准 差 ， 那么 这 个 数 将 会 被 重新 随机 


值 类 型 






















TensorFlow 也 支持 通过 常数 来 初始 化 一 个 变量 。 表 3-3 给 出 了 TensorFlow 中 常用 的 常 
量 声明 方法 。 


表 3-3 TensorFlow 常数 生成 函数 
函数 名 各 


在 神经 网 络 中 ， 偏 置 项 (bias) 通常 会 使 用 常数 来 设置 初始 值 。 以 下 代码 给 出 了 一 个 样 例 。 


biases = tf.Variable (tf.zeros([3])): 


这 段 代码 将 会 生成 一 个 初始 值 全 部 为 0 且 长 度 为 3 的 变量 。 除 了 使 用 随机 数 或 者 种 数 ， 


TensorFlow 也 支持 通过 其 他 变量 的 初始 值 来 初始 化 新 的 变量 。 以 下 代码 给 出 了 具体 的 方法 。 


w2 = tf.Variable (weights.initialized value()) 
w3 = tf.Variable (weights.initialized value() * 2.0) 


以 上 代码 中 ，w2 的 初始 值 被 设置 成 了 与 weights 变量 相同 。w3 的 初始 值 则 是 weights 
初始 值 的 两 倍 。 在 TensorFlow 中 ,一 个 变量 的 值 在 被 使 用 之 前 ， 这 个 变量 的 初始 化 过 程 需要 
被 明确 地 调用 。 以 下 样 例 介 绍 了 如 何 通 过 变量 实现 神经 网 络 的 参数 并 实现 前 问 传 播 的 过 程 。 
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import tensorflow as tf 


# 声明 w1、w2 两 个 变量 。 这 里 还 通过 seed 参数 设 定 了 随机 种 子 ， 

# 这 样 可 以 保证 每 次 运行 得 到 的 结果 是 一 样 的 。 

wl = tf.Variable (tf.random normal ([2, 3], stddev=1, seed=1)) 
w2 = tf.Variable (tf.random normal([3, 1], stddev=1, seed=1)) 


# 暂时 将 输入 的 特征 向 量 定 义 为 一 个 常量 。 注 意 这 里 x 是 一 个 1*2 的 矩阵 。 
SR 


# 通过 3.4.2 小 节 描 述 的 前 向 传播 算法 获得 神经 网 络 的 输出 。 
d= tm (x wh 
y = tf.matmul (a, w2) 


sess = tf.Session() 

# 与 3.4.2 中 的 计算 不 同 ， 这 里 不 能 直接 通过 sess .run(y) 来 获取 y 的 取 值 ， 

# 因为 wl 和 w2 都 还 没有 运行 初始 化 过 程 。 下 面 的 两 行 分 别 初 始 化 了 wl 和 w2 两 个 变量 。 
sess.run(wl.initializer) ## 初始 化 wl 

sess.run(w2.initializer) # 初始 化 w2 

# 输出 [[3.95757794] ] 

print (sess.run(y)) 

sess.close() 


上 上面 这 段 程 序 实现 了 神经 网 络 的 前 向 传播 过 程 。 从 这 段 代 码 可 以 看 到 ， 当 声明 了 变量 
w1、w2 之 后 ， 可 以 通过 wl 和 w2 来 定义 神经 网 络 的 前 向 传播 过 程 并 得 到 中 间 结 果 a 和 最 
后 答案 y。 定 义 w1、w2、a 和 Yy 的 过 程 对 应 了 3.1.2 小 节 中 介绍 的 TensorFlow 程序 的 第 一 
步 。 这 一 步 定 义 了 TensorFlow 计算 图 中 所 有 的 计算 ， 但 这 些 被 定义 的 计算 在 这 一 步 中 并 不 
真正 的 运行 。 当 需要 运行 这 些 计算 并 得 到 具体 数字 时 ,需要 进入 TensorFlow 程序 的 第 二 步 。 

在 TensorFlow 程序 的 第 二 步 会 声明 一 个 会 话 (session)， 并 通过 会 话 计算 结果 。 在 上面 
的 样 例 中 ， 当 会 话 定义 完成 之 后 就 可 以 开始 真正 运行 定义 好 的 计算 了 。 但 在 计算 y 之 前 ， 
需要 将 所 有 用 到 的 变量 初始 化 。 也 就 是 说 ， 虽 然 在 变量 定义 时 给 出 了 变量 初始 化 的 方法 ， 
但 这 个 方法 并 没有 被 真正 运行 。 所 以 在 计算 y 之 前 ， 需 要 通过 运行 wl.initializer 和 
w2.initializer 来 给 变量 赋值 。 虽 然 直 接 调用 每 个 变量 的 初始 化 过 程 是 一 个 可 行 的 方案 , 但 是 
当 变 量 数 目 增 多 ,或 者 变量 之 间 存 在 依赖 关系 时 ， 单 个 调用 的 方案 就 比较 麻烦 了 。 为 了 解决 
这 个 问题 ，TensorFlow 提供 了 一 种 更 加 便捷 的 方式 来 完成 变量 初始 化 过 程 。 下 面 的 程序 展示 
了 通过 tf.initialize_all_variables 函数 实现 初始 化 所 有 变量 的 过 程 。 

jnit: op =:tf,initialize all:variables!() 

sess.run (init op) 
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通过 tfinitialize all_ variables 函数 ， 就 不 需要 将 变量 一 个 一 个 初始 化 了 。 这 个 函数 也 会 
自动 处 理 变量 之 间 的 依赖 关系 。 下 面 的 章节 都 将 使 用 这 个 函数 来 完成 变量 的 初始 化 过 程 。 

在 3.2 节 中 介绍 过 TensorFlow 的 核心 概念 是 张 量 〈tensor)， 所 有 的 数据 都 是 通过 张 量 
的 形式 来 组 织 的 ， 那 么 本 小 节 介 绍 的 变量 和 张 量 是 什么 关系 呢 ? 在 TensorFlow 中 ， 变 量 的 
声明 函数 tf.Variable 是 一 个 运算 。 这 个 运算 的 输出 结果 就 是 一 个 张 量 ， 这 个 张 量 也 就 是 本 
节 中 介绍 的 变量 。 所 以 变量 只 是 一 种 特殊 的 张 量 。 下 面 将 进一步 介绍 tf.Variable 操作 在 
TensorFlow 中 底层 是 如 何 实现 的 。 图 3-7 给 出 了 神经 网 络 前 向 传 播 样 例 程序 的 TensorFlow 
计算 图 的 一 个 部 分 ， 这 个 部 分 显示 了 和 变量 wl 相关 的 操作 。 


Rs ww) ~ 
1 - Qpera'ion' . .> 
W | Vanable 

i } dype Ftvpe DT_FLOAT') 
4 ee E Shale rshape {tdi alze 2)， 
Assign wo es er ‘sire’ 3 让) 
- 甫 ee ns 本 pe 
) ,read random_n.. | 


(WwW) 


Wew yws 


(w1) 9!e—! 的 .MatMul 


-a 
~ ra a PT 人 rr A a ee 2 Er I i We ET po 


图 3-7 神经 网 络 前 向 传播 样 例 中 变量 wl 相关 部 分 的 计算 图 可 视 化 结果 ? 


在 图 3-7 上 黑色 的 椭圆 代表 了 变量 w1， 可 以 看 到 wl 是 一 个 Variable 运算 。 在 这 张 图 
的 下 方 可 以 看 到 wl 通过 一 个 read 操作 将 值 提 供给 了 一 个 乘法 运算 ， 这 个 乘法 操作 融 是 
tf.matmul(x, wl1)。 初 始 化 变量 wl 的 操作 是 通过 Assign 操作 完成 的 。 在 图 3-7 上 可 以 看 到 
Assign 这 个 节点 的 输入 为 随机 数 生成 函数 的 输出 , 而 且 输 出 赋 给 了 变量 wl1。 这样 就 完成 了 
变量 初始 化 的 过 程 。 

3.1.2 小 节 介 绍 了 TensorFlow 中 集合 (collection) 的 概念 ， 所 有 的 变量 都 会 被 自动 的 加 
入 GraphKeys.VARIABLES 这 个 集合 。 通 过 tall variables 函数 可 以 拿 到 当前 计算 图 上 所 有 
的 变量 。 拿 到 计算 图 上 所 有 的 变量 有 助 于 持久 化 整个 计算 图 的 运行 状态 ， 在 第 5 章 中 将 更 
加 详细 地 介绍 , 当 构 建 机 器 学 习 模 型 时 , 比如 神经 网 络 , 可 以 通过 变量 声明 函数 中 的 trainable 
参数 来 区 分 需要 优化 的 参数 (比如 神经 网 络 中 的 参数 ) 和 其 他 参数 〈 比 如 迭代 的 轮 数 )。 如 
果 声 明 变 量 时 参数 trainable 为 True， 那 么 et ich GraphKeys.TRAINABLE 
VARIABLES 集合 。 在 TensorFlow 中 可 以 通过 给 trainable_variables 函数 得 到 所 有 需要 优化 


Q@ 此 图 是 通过 TensorBoard 可 视 化 工具 绘制 的 ， 将 在 第 9 章 中 详细 介绍 TensorBoard。 
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的 参数 .TensorFlow 中 提供 的 神经 网 络 优化 算法 会 将 GraphKeys.TRAINABLE VARIABLES 
集合 中 的 变量 作为 默认 的 优化 对 象 。 

类 似 张 量 ， 维 度 〈shape) 和 类 型 〈type) 也 是 变量 最 重要 的 两 个 属性 。 和 大 部 分 程序 
语言 类 似 ， 变 量 的 类 型 是 不 可 改变 的 。 一 个 变量 在 构建 之 后 ， 它 的 类 型 就 不 能 再 改变 了 。 
比如 在 上 面 给 出 的 前 问 传 播 样 例 中 ,wl 的 类 型 为 random normal 结果 的 默认 类 型 tf.float32， 
那么 它 将 不 能 被 赋予 其 他 类 型 的 值 。 以 下 代码 将 会 报 出 类 型 不 匹配 的 错误 。 

wl = tf.Variable(tf.random normal([2, 3], stddev=1), name="w1") 

w2 = tf.Variable (tf.random normal ([2, 3], dtype=tf.float64, stddev=1), 


name="w2") 
wl .assign (w2) 


| hE) 

程序 将 报错 : 

TypeError: Input 'value' of 'Assign' Op has type float64 that does not match 
tyvpe Eloat32of argqument. refs 


维度 是 变量 另 一 个 重要 的 属性 。 和 类 型 不 大 一 样 的 是 ， 维 度 在 程序 运行 中 是 有 可 能 
变 的 ， 但 是 需要 通过 设置 参数 validate shape=False。 下 面 给 出 了 一 段 示 范 代码 。 


Wl = tt ,Variable(tf random normal( {2,3 :.Stddev=1) ,name Wl,) 
w2 = tf.Variable (tf.random normal([2, 2], stddev=1), name="w2") 
# 下 面 这 句 会 报 维度 不 匹配 的 错误 : 

# ValueError: Shapes (2, 3) and (2, 2) are not compatible 
tf.assign (wl, w2) 

# 这 一 句 可 以 被 成 功 执 行 。 


tf.assign (wil, w2, validate shape=False) 


虽然 TensorFlow 支持 更 改变 量 的 维度 ， 但 是 这 种 用 法 在 实践 中 比较 罕见 。 
3.4.4 ”通过 TensorFlow 训练 神经 了 网络 模 型 


3.4.3 小 节 介 绍 了 如 何 通 过 TensorFlow 变量 来 表示 神经 网 络 中 的 参数 , 并 给 出 了 一 个 样 
例 程序 来 完成 神经 网 络 的 前 向 传播 过 程 。 在 这 个 样 例 程 序 中 , 所 有 变量 的 取 值 都 是 随机 的 。 
在 使 用 神经 网 络 解决 实际 的 分 类 或 者 回归 问题 时 (比如 判断 一 个 零件 是 否 合格 需要 更 好 
地 设置 参数 取 值 。 这 一 小 节 将 简单 介绍 使 用 监督 学 习 的 方式 来 更 合理 地 设置 参数 取 值 ， 同 
时 也 将 给 出 TensorFlow 程序 来 完成 这 个 过 程 。 设 置 神经 网 络 参 数 的 过 程 就 是 神经 网 络 的 训 
练 过 程 。 只 有 经 过 有 效 训练 的 神经 网 络 模型 才 可 以 真正 的 解决 分 类 或 者 回归 问题 。 图 3-8 
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对 比 了 训练 之 前 和 训练 之 后 神经 网 络 模 型 的 分 类 效果 。 从 图 中 可 以 看 出 ， 模 型 在 训练 之 前 
是 完全 无 法 区 分 黑色 点 和 灰色 扣 的 ， 但 经 过 训练 之 后 区 分 效果 已 经 很 好 了 。 





图 3-8 ”TensorFlow 游乐 场 训 练 前 和 训练 后 效果 对 比 


使 用 监督 学 习 的 方式 设置 神经 网 络 参 数 需 要 有 一 个 标注 好 的 训练 数据 集 。 以 判断 零件 
是 否 合 格 为 例 ， 这 个 标注 好 的 训练 数据 集 就 是 收集 的 一 批 合格 零 件 和 一 批 不 合格 零件 。 在 
图 3-8 中 ， 图 上 黑色 点 和 灰色 点 代表 的 就 是 训练 数据 集 ， 而 平面 上 或 深 或 浅 的 颜色 表示 了 
神经 网 络 模型 做 出 的 判断 。 如 3.4.1 小 节 所 介绍 的 ， 一 个 地 方 的 颜色 越 深 ， 那么 表示 神经 网 
络 模型 对 它 的 判断 越 有 信心 ”。 左 侧 的 图 片 显示 的 是 一 个 神经 网 络 在 训练 之 前 的 分 类 效果 ， 
这 时 所 有 变量 的 取 值 都 是 随机 数 。 可 以 看 到 这 个 平面 上 的 颜色 都 很 浅 ， 而 且 完全 区 分 不 出 
灰色 点 和 黑色 点 。 右 侧 图 片 显 示 了 经 过 训练 后 的 神经 网 络 的 情况 。 可 以 看 到 图 上 黑色 点 和 
灰色 点 可 以 很 清晰 地 被 区 分 开 来 ， 而 且 除 了 中 间 有 一 圈 是 浅 色 的 ， 其 他 地 方 神经 网 络 都 可 
以 给 出 非常 确定 的 答案 。 

监督 学 习 最 重要 的 思想 就 是 ， 在 已 知 答案 的 标注 数据 集 上 ， 模 型 给 出 的 预测 结果 要 尽 
量 接近 真实 的 答案 。 通 过 调整 神经 网 络 中 的 参数 对 训练 数据 进行 拟 合 ， 可 以 使 得 模型 对 未 
知 的 样本 提供 预测 的 能 力 。 图 3-8 中 右 侧 图 片 中 右上 和 角 的 深 色 点 就 很 有 可 能 和 灰色 点 有 相 
同 的 标签 。 如 果 灰 色 点 代表 不 合格 的 零件 ， 那 么 这 个 深 色 点 所 代表 的 零件 应 该 也 不 合格 。 

在 神经 网 络 优 化 算法 中 ， 最 常用 的 方法 是 反 回 传播 算法 〈backpropagation)。 反 回 传 播 
算法 的 具体 工作 原理 将 在 下 面 的 4.3 小 节 中 详 述 。 本 小 节 将 主要 介绍 训练 神经 网 络 的 整体 
流程 以 及 TensorFlow 对 于 这 个 流程 的 文 持 。 图 3-9 展示 了 使 用 反 回 传播 算法 训练 神经 网 络 
的 流程 图 。 


QD 在 TensorFlow 游乐 场 有 两 种 颜色 ， 一 种 黄色 文中 浅 色 部 分 )， 一 种 蓝 色 (文中 深 色 部 分 )。 任 意 一 种 
颜色 越 深 ， 都 代表 判断 的 信心 越 大 。 
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初始 化 变量 
训练 次 数 =0 







训练 次 数 +1 





通过 前 网 传播 
获得 预测 值 





结束 训练 







通过 反 疝 传播 





图 3-9 ”神经 网 络 反 向 传播 优化 流程 图 


从 图 3-9 中 可 以 看 出 ， 反 癌 传 播 算法 实现 了 一 个 迭代 的 过 程 。 在 每 次 迭代 的 开始 ， 首 
先 需 要 选取 一 小 部 分 训练 数据 ， 这 一 小 部 分 数据 叫做 一 个 batch。 然 后 ， 这 个 batch 的 样 例 
会 通过 前 向 传播 算法 得 到 神经 网 络 模型 的 预测 结果 。 因 为 训练 数据 都 是 有 正确 答案 标注 的 ， 
所 以 可 以 计算 出 当前 神经 网 络 模 型 的 预测 答案 与 正确 答案 之 间 的 差距 。 最 后 ， 基 于 这 预测 
值 和 真实 值 之 间 的 差距 ， 反 疝 传 播 算法 会 相应 更 新 神经 网 络 参 数 的 取 值 ， 使 得 在 这 个 batch 
上 和 神经 网 络 模型 的 预测 结果 和 真实 答案 更 加 接近 。 

通过 TensorFlow 实现 反 回 传播 算法 的 第 一 步 是 使 用 TensorFlow 表达 一 个 batch 的 数据 。 
在 3.4.3 小 节 中 等 试 过 使 用 种 量 来 表达 过 一 个 样 例 : 


X= 基尼 下 CONSt antGlt[Oa OOlN) 


但 如 果 每 轮 达 代 中 选取 的 数据 都 要 通过 常量 来 表示 ， 那 么 TensorFlow 的 计算 图 将 会 太 
大 。 因 为 每 生成 一 个 常量 ，TensorFlow 都 会 在 计算 图 中 增加 一 个 节点 。 一 般 来 说 ， 一 个 神 
经 网 络 的 训练 过 程 会 需要 经 过 几 百 万 轮 甚 至 几 亿 轮 的 迭代 ， 这 样 计 算 图 就 会 非常 大 ， 而 且 
利用 率 很 低 。 为 了 避免 这 个 问题 ，TensorFlow 提供 了 placeholder 机 制 用 于 提供 输入 数据 。 
placeholder 相当 于 定义 了 一 个 位 置 ， 这 个 位 置 中 的 数据 在 程序 运行 时 再 指定 。 这 样 在 程序 
中 就 不 需要 生成 大 量 常 量 来 提供 输入 数据 ， 而 只 需要 将 数据 通过 placeholder 传 入 
TensorFlow 计算 图 。 在 placeholder 定义 时 ， 这 个 位 置 上 的 数据 类 型 是 需要 指定 的 。 和 其 他 
张 量 一 样 ，placeholder 的 类 型 也 是 不 可 以 改变 的 。placeholder 中 数据 的 维度 信息 可 以 根据 
提供 的 数据 推导 得 出 ， 所 以 不 一 定 要 给 出 。 下 面 给 出 了 通过 placeholder 实现 前 向 传播 算法 
的 代码 。 
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import tensorflow as tf 


wl = tf.Variable (tf.random normal ([2, 3], stddev=1)) 
Ww2 tf.Variable(tf.random normal([3, 1], stddev=1)) 


# 定义 placeholder 作为 存放 输入 数据 的 地 方 。 这 里 维度 也 不 一 定 要 定义 。 
# 但 如 果 维 度 是 确定 的 ， 那 么 给 出 维度 可 以 降低 出 错 的 概率 。 

x = tf.placeholder (tf.float32, shape=(1, 2), name="input") 
a = tf.matmul (x, WII) 

y = tf.matmul (a, w2) 


sess = tf.Session{() 
init, Op = CielnrtlallZerell vartables( 


SESSTUN (LNnLte Op) 


# 下 面 一 行将 报销 : InvalidArgumentError: You must feed a value for placeholder 
# tensor 'input 1' with dtype float and shape [1,2] 
print (sess.run (y)) 


# 下 面 一 行将 会 得 到 和 3.4.2 小 节 中 一 样 的 输出 结果 : [[3.95757794]] 
print(sesssrum(yr ;feededict={x» [E00.9] 


在 这 段 程序 中 替换 了 原来 通过 常量 定义 的 输入 x。 在 新 的 程序 中 计算 前 同 传 播 结果 时 ， 
需要 提供 一 个 feed_dict 来 指定 x 的 取 值 。feed_dict 是 一 个 字典 (map)， 在 字典 中 需要 给 出 
每 个 用 到 的 placeholder 的 取 值 。 如 果 某 个 需要 的 placeholder 没有 被 指定 取 值 ， 那 么 程序 在 
运行 时 将 会 报错 。 

上 面 的 程序 只 计算 了 一 个 样 例 的 前 向 传播 结果 ， 但 如 图 3-9 所 示 ， 在 训练 神经 网 络 时 
需要 每 次 提供 一 个 batch 的 训练 样 例 。 对 于 这 样 的 需求 ，placeholder 也 可 以 很 好 地 文 持 。 在 
上 面 的 样 例 程 序 中 ， 如 果 将 输入 的 1x2 和 矩阵 改 为 nx2 的 和 矩阵， 那么 就 可 以 得 到 个 样 例 的 
前 向 传播 结果 了 。 其 中 nx2 的 矩阵 的 每 一 行为 一 个 样 例 数据 。 这 样 前 同 传 播 的 结果 为 nx1 
的 矩阵 ， 这 个 矩阵 的 每 一 行 就 代表 了 一 个 样 例 的 前 向 传播 结果 。 下 面 的 程序 片 给 出 了 一 个 
.不 例 。 


x = tf.placeholder (tf.float32, shape=(3, 2), name="input") 
.. # 中 间 部 分 和 上 面 的 样 例 程 序 一 样 。 


# 因为 x 在 定义 时 指定 了 n 为 3， 所 以 在 运行 前 向 传播 过 程 时 需要 提供 3 个 样 例 数 据 。 
print(sess.run(yr feed dict={x: T[0.770.9]% [0.1)0-.4], EORD 人 OE] 
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输出 结果 为 : 

[[ 3.95757794] 
[53X6544] 
[ 3.167491911] ] 


上 面 的 样 例 展 示 了 一 次 性 计算 多 个 样 例 的 前 同 传 播 结 果 。 在 运行 时 ， 需 要 将 3 个 样 例 
[0.7,0.9]、[0.1,0.4] 和 [0.5,0.8] 组 成 一 个 3x2 的 矩阵 传 入 placeholder。 计 算得 到 的 结果 为 3x1 
的 矩阵 。 其 中 第 一 行 3.95757794 为 样 例 [0.7,0.9] 的 前 向 传播 结果 ; 1.15376544 为 样 例 [0.1,0.4] 
的 前 向 传播 结果 ; 3.16749191 为 样 例 [0.5,0.8] 的 前 同 传播 结果 。 

在 得 到 一 个 batch 的 前 问 传播 结果 之 后 ， 和 需要 定义 一 个 损失 函数 来 刻画 当前 的 预测 值 
和 真实 答案 之 间 的 差距 。 然 后 通过 反 同 传播 鼻 法 来 调整 神经 网 络 参数 的 取信 使 得 差距 可 以 
被 缩小 。 损 失 函 数 和 反 向 传播 算法 将 在 第 4 章 中 更 加 详细 地 介绍 。 以 下 代码 定义 了 一 个 简 
单 的 损失 函数 ， 并 通过 TensorFlow 定义 了 反问 传播 的 算法 。 

# 定义 损失 函数 来 刻画 预测 值 与 真实 值得 差距 。 

CEOSSECNErODY =— tf reduce means 

Va elor(tte Chr by value (yy Lest0yL 0 

# 定义 学 习 率 ， 在 第 4 章 中 将 更 加 具体 的 介绍 学 习 率 。 

Jearningerates=>0.001 

# 定义 反 同 传播 算法 来 优化 神经 网 络 中 的 参数 。 

train step =\ 

tf.train.AdamOptimizer (learning rate) .minimize (cross entropy) 

在 上 面 的 代码 中 , cross_entropy 定义 了 真实 值 和 预测 值 之 间 的 交叉 焙 (cross entropy)， 
这 是 分 类 问题 中 一 个 常用 的 损失 函数 。 第 二 行 train_step 定义 了 反 向 传播 的 优化 方法 。 目 前 
TensorFlow 支持 7 种 不 同 的 优化 器 ， 读 者 可 以 根据 具体 的 应 用 选择 不 同 的 优化 算法 。 比 较 
常用 的 优化 方法 有 三 种 : tf.train.GradientDescentOptimizer 、tf.train.AdamOptimizer 和 
tttrain.MomentumOptimizer。 在 定义 了 反 辐 传播 算法 之 后 ， 通 过 运行 sess.run(train_step) 吏 
可 以 对 所 有 在 GraphKeys.TRAINABLE VARIABLES 集合 中 的 变量 ?进行 优化 , 使 得 在 当前 
batch 下 损失 函数 更 小 。 下 面 的 3.4.5 小 节 将 给 出 一 个 完整 的 训练 神经 网 络 样 例 程序 。 


3.4.5 “完整 神经 网 络 样 例 程 序 
本 小 节 将 在 一 个 模拟 数据 集 上 训练 神经 网 络 。 下 面 给 出 了 一 个 完整 的 程序 来 训练 神经 


Q 在 第 4 章 中 将 更 加 有 具体 的 介绍 交叉 炳 损失 函数 。 
@@ TensorFlow 计算 图 中 集合 的 概念 在 3.1.2 小 节 有 介绍 。 
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网 络 解决 二 分 类 问题 。 
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import tensorflow as tf- 


# NumPy 是 一 个 科学 计算 的 工具 包 ， 这 里 通过 NumPy 工具 包 生 成 模拟 数据 集 。 


from numpy.random import RandomSsState 


# 定义 训练 数据 batch 的 大 小 。 


batch size = 8 


# 定义 神经 网 络 的 参数 ， 这 里 还 是 沿用 3 .4 .2 小 节 中 给 出 的 神经 网 络 结构 。 
wl = tf.Variable (tf.random normal ([2, 3], stddev=1, seed=1)) 
w2 = tf.Variable(tf.random normal([3, 1], stddev=1, seed=1)) 


# .在 shape 的 一 个 维度 上 使 用 None 可 以 方便 使 用 不 大 的 batch 大 小 。 在 训练 时 需要 把 数据 分 
# 成 比较 小 的 batch， 但 是 在 测试 时 ， 可 以 一 次 性 使 用 全 部 的 数据 。 当 数据 集 比较 小 时 这 样 比较 
# 方便 测试 ， 但 数据 集 比较 大 时 ， 将 大 量 数据 放 入 一 个 batch 可 能 会 导致 内 存 洲 出 。 

x = tf.placeholder (tf.float32, shape= (None, 2), name='x-input') 

y_ = tf.placeholder (tf.float32, shape=(None, 1), name='y-input') 


# 定义 神经 网 络 前 向 传播 的 过 程 。 
a = tf.matmul (x, wl) 
y tf.matmul (a, w2) 


# 定义 损失 函数 和 反 向 传播 的 算法 。 


CIroOSSsentropyr = tt: reducemean( 
Vt fl ol(t Et Chipubi value (yy, Les.L Oe L000) )) 
train step = tf.train.AdamOptimizer(0.001) .minimize (cross entropy) 


# 通过 随机 数 生成 一 个 模拟 数据 集 。 


rdm = RandomState (1) 
dataset size = 128 
X=3rdm rand(dataset esizey 2) 


# 定义 规则 来 给 出 样本 的 标签 。 在 这 里 所 有 x1+x2<1 的 样 例 都 被 认为 是 正 样 本 (比如 零件 合格 )， 


# 而 其 他 为 负 样 本 (比如 零件 不 合格 )。 和 TensorFlow 游乐 场 中 的 表示 法 不 大 一 样 的 地 方 是 ， 
# 在 这 里 使 用 0 来 表示 负 样 本 ，1 来 表示 正 样本 。 大 部 分 解决 分 类 问题 的 神经 网 络 都 会 采用 

# 0 和 1 的 表示 方法 。 

Ts [rt (rl FOr (Rl eo NT 


# 创建 一 个 会 话 来 运行 TensorFlow 程序 。 


with tf.Session() as sess: 
init op = tf.initialize all variables () 
# 初始 化 变量 。 


SeSS. run(Init nop) 
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print sess.run (wl) 


print sess.run (w2) 


Yt 

在 训练 之 前 神经 网 络 参 数 的 值 : 

Wl 0 Bl T3182 aA.16, 0000329371 
[-2.44270396, 0.0992484, 0.59122431]] 

w2 = [[-0.81131822]， [1.48459876], [0.06532937]] 


和 UU 


# 设 定 训练 的 轮 数 。 
STEPS = 5000 
Ome ange toTEbsl 
# 每 次 选取 batch size 个 样本 进行 训练 。 


Sarba= (1 .Batlehnssrtre Sdataset sale 
end- = minlstartibatcech size, dataset size) 


# 通过 选取 的 样本 训练 神经 网 络 并 更 新 参数 。 
SS 名 SS run(train’ stepy 
feeds dietstx Xbtstartendl, 2 区 二 art2end 寺 

1f i $1000- ==.0: 

# 每 隔 一 段 时 间 计 算 在 所 有 数据 上 的 交叉 炉 并 输出 。 

上 上 OOSSRETREECEY = ess Eu 

CroSs" entropy teed diot={x XY ei) 
print ("After %d training step(s), cross entropy onall data is %$g" $% 


(Lr totalacCross enEropy)) 
| Ca Ea | 


输出 结果 : 

After 0 training step(s), cross entropy on all data is 0.0674925 
After 1000 training step(s), cross entropy on all data is 0.0163385 
After2000 training step(s);.cross entropy onalldatais 0.00907547 
After 3000 training step (s), cross entropy on all data is 0.00714436 
After 4000 training step(s), cross entropy onall datais 0.00578471 


通过 这 个 结果 可 以 发 现 随 着 训练 的 进行 ， 交 又 人 是 逐渐 变 小 的 。 交 叉 炉 越 小 说 明 
预测 的 结果 和 真实 的 结果 差距 越 小 。 


A 


print sess.run (wl1) 
print sess.run (w2) 


RU 


在 训练 之 后 神经 网 络 参数 的 值 : 

wl = [[-1.9618274，2.58235407，1.68203783] 
[-3.4681716, 1.06982327, 2.11788988]] 

w2 = [[-1.8247149], [2.68546653], [1.41819501]] 
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可 以 发 现 这 两 个 参数 的 取 值 已 经 发 生 了 变化 ， 这 个 变化 就 是 训练 的 结果 。 
它 使 得 这 个 神经 网 络 能 更 好 的 拟 合 提 供 的 训练 数据 。 
上 面 的 程序 实现 了 训练 神经 网 络 的 全 部 过 程 。 从 这 上 段 程序 可 以 总 结 出 训练 神经 网 络 的 
过 程 可 以 分 为 以 下 3 个 步骤 : 
1. 定义 神经 网 络 的 结构 和 前 同 传 播 的 输出 结果 。 
2. 定义 损失 函数 以 及 选择 反 同 传播 优化 的 算法 。 
3. 生成 会 话 (tf.Session) 并 且 在 训练 数据 上 反复 运行 反 疝 传播 优化 算法 。 
无 论 神 经 网 络 的 结构 如 何 变 化 ， 这 3 个 步骤 是 不 变 的 。 


小 结 


本 章 首 先 介 绍 了 TensorFlow 里 最 基本 的 三 个 概念 一 一 计算 图 (tfGraph )、 张 量 
(tf.Tensor) 和 会 话 〈(tf.Session)。 在 3.1 节 中 ,介绍 了 TensorFlow 中 计算 图 的 概念 。 计 算 图 
是 TensorFlow 的 计算 模型 ， 所 有 TensorFlow 的 程序 都 会 通过 计算 图 的 形式 表示 。 计算 图 上 
的 每 一 个 节点 都 是 一 个 运算 ， 而 计算 图 上 的 边 则 表示 了 运算 之 间 的 数据 传递 关系 。 计 算 图 
上 还 保存 了 运行 每 个 运算 的 设备 信息 〈 比 如 是 通过 CPU 上 还 是 GPU 运行 ) 以 及 运算 之 间 
的 依赖 关系 。 计 算 图 提供 了 管理 不 同 集合 的 功能 ， 并 且 TensorFlow 会 目 动 维护 五 个 不 同 的 
默认 集合 。3.2 节 介 绍 了 张 量 的 概念 。 张 量 是 TensorFlow 的 数据 模型 ，TensorFlow 中 所 有 
运算 的 输入 、 输 出 都 是 张 量 。 张 量 本 身 并 不 存储 任何 数据 ， 它 只 是 对 运算 结果 的 引用 。 通 
过 张 量 ， 可 以 更 好 地 组 织 TensorFlow 程序 。 接 着 3.3 节 介 绍 了 TensorFlow 中 的 会 话 。 会 话 
是 TensorFlow 的 运算 模型 , 它 管理 了 一 个 TensorFlow 程序 拥有 的 系统 资源 ， 所 有 的 运算 都 
要 通过 会 话 执行 。 

本 章 的 最 后 一 节 介绍 了 如 何 使 用 TensorFlow 来 实现 神经 网 络 的 训练 过 程 。 首 先 3.4.1 
小 节 结 合 TensorFlow 游乐 场 简单 介绍 了 神经 网 络 的 大 致 功能 ， 并 介绍 了 使 用 神经 网 络 的 几 
个 主要 步 又。 然后 在 接 下 来 的 3.4.2 到 3.4.4 小 节 中 ,依次 介绍 了 神经 网 络 的 前 疝 传播 算法 、 
神经 网 络 中 的 参数 在 TensorFlow 中 的 表示 以 及 神经 网 络 的 反 同 传播 优化 算法 框架 。 综合 这 
3 个 小 节 的 内 容 , 最 后 3.4.5 小 节 给 出 了 一 个 完整 的 TensorFlow 程序 来 训练 神经 网 络 。 在 下 
面 的 第 4 章 中 ， 将 更 加 深入 地 介绍 设计 和 优化 神经 网 络 中 的 细 蔬 。 
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第 3 章 介 绍 了 TensorFlow 的 主要 概念 , 并 且 给 出 了 一 个 完整 的 TensorFlow 程序 来 训练 
神经 网 络 。 在 这 一 章 中 ， 将 进一步 介绍 如 何 设计 和 优化 神经 网 络 ， 使 得 它 能 够 更 好 地 对 未 
知 的 样本 进行 预测 。 首 先 在 4.1 节 中 ， 将 介绍 深度 学 习 与 深层 神经 网 络 的 概念 ， 并 给 出 一 
个 实际 的 样 例 来 说 明 深层 神经 网 络 可 以 解决 部 分 浅 层 神经 网 络 解决 不 了 的 问题 。 然 后 在 4.2 
节 中 ， 将 介绍 如 何 设 定神 经 网 络 的 优化 目标 。 这 个 优化 目标 也 就 是 损失 函数 。 这 一 市 将 分 
别 介 绍 分 类 问题 和 回归 问题 中 比较 常用 的 几 种 损失 函数 。 除 了 使 用 经 典 的 损失 函数 外 ， 在 
这 一 节 中 将 给 出 一 个 样 例 来 讲解 如 何 通过 对 损失 函数 的 设置 ， 使 神经 网 络 优化 的 目标 更 加 
接近 实际 问题 的 需求 。 接 着 ，4.3 节 将 更 加 详细 地 介绍 神经 网 络 的 反 辐 传播 修法， 并 且 给 
一 个 TensorFlow 框架 来 实现 反 向 传播 的 过 程 。 在 对 神经 网 络 优化 有 了 进一步 了 解 之 后 ,最 后 
4.4 节 将 介绍 在 神经 网 络 优化 中 经 常 遇 到 的 几 个 问题 ， 并 且 给 出 解决 这 些 问 题 的 具体 方法 。 


4.1 深度 学 习 与 深层 神经 网 络 


维基 百科 对 深度 学 习 的 精确 定义 为 “一 类 通过 多 层 非 线性 变换 对 高 复杂 性 数据 建 模 复 
法 的 合集 ””。 因 为 深层 神经 网 络 是 实现 “多 层 非 线性 变换 ”最 常用 的 一 种 方法 ， 所 以 在 实 
际 中 基本 上 可 以 认为 深度 学 习 就 是 深层 神经 网 络 的 代名词 。 从 维基 百科 给 出 的 定义 可 以 看 
出 ， 深 度 学 习 有 两 个 非常 重要 的 特性 一 一 多 层 和 非 线 性 。 那 么 为 什么 要 强调 这 两 个 性 质 ? 
本 小 节 将 给 出 详细 的 解释 ， 并 且 将 通过 有 具体 的 样 例 来 说 明 这 两 点 在 对 复杂 问题 建 模 时 是 缺 
一 不 可 的 。4.1.1 小 节 将 先 介绍 线性 变换 存在 的 问题 ， 以 及 为 什么 要 在 深度 学 习 的 定义 中 强 
调 “ 复 杂 问 题 ”。 然 后 在 4.1.2 小 节 中 ， 将 介绍 如 何 实现 去 线性 化 ， 并 给 出 TensorFlow 程序 
来 实现 去 线性 化 的 功能 。 最 后 4.1.3 小 节 将 介绍 一 个 具体 的 样 例 来 说 明 深 层 网 络 比 浅 层 网 络 


(D 具体 定义 可 以 参考 维基 百科 : https://en.wikipedia.org/wiki/Deep_learning。 
- 
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可 以 解决 更 多 的 问题 。 


4.1.1 ”线性 模型 的 局 限 性 


在 线性 模型 中 ， 模 型 的 输出 为 输入 的 加 权 和 。 假 设 一 个 模型 的 输出 y 和 输入 x; 满足 以 
下 天 系 ， 那 么 这 个 模型 就 是 一 个 线性 模型 。 
y= >》 Wi +b 


其 中 wi,b eR 为 模型 的 参数 。 被 称 之 为 线性 模型 是 因为 当 模 型 的 输入 只 有 一 个 的 时 候 ， 
xx 和 ?> 形成 了 二 维 坐 标 系 上 的 一 条 直线 。 类 似 的 ， 当 模型 有 个 输入 时 ，x 和 y 形成 了 n+l 
维 空 间 中 的 一 个 平面 。 而 一 个 线性 模型 中 通过 输入 得 到 输出 的 函数 被 称 之 为 一 个 线性 变换 。 
圭 面 的 公式 就 是 一 个 线性 变换 。 线 性 模型 的 最 大 特点 是 任意 线性 模型 的 组 合 仍 然 还 是 线性 
模型 。 细 心 的 读者 可 能 已 经 注意 到 了 ，3.4.2 小 节 中 所 介绍 的 前 向 传播 算法 实现 的 就 是 一 个 
线性 模型 。 在 3.4.2 小 节 中 ， 前 向 传播 的 计算 公式 为 : 
a0 =xWO, y=ad WY 
其 中 x 为 输入 ， 夯 为 参数 。 整 理 一 下 上 面 的 公式 可 以 得 到 整个 模型 的 输出 为 : 
= (xz 及 加 
根据 矩阵 乘法 的 结合 律 有 : 
y=x(WOWO)=xW' 
而 WW 其 实 可 以 被 表示 为 一 个 新 的 参数 W': 


W. 
(1) (1) (1) ll (DTrrr(2) (1) yy (2) (1) yr (2) i 
yr WWD _ 攻 Wy Ws yy Wi + HW Wy + Hs W311 | k 


We We We | [mm + mm + mm | LW 
这 样 输 入 和 输出 的 关系 就 可 以 表示 为 

a mi 

W2 

其 中 W' 是 新 的 参数 。 这 个 前 向 传播 的 算法 完全 符合 线性 模型 的 定义 。 从 这 个 例子 可 以 

看 到 ， 虽 然 这 个 神经 网 络 有 两 层 〈 不 算 输 入 层 )， 但 是 它 和 单 层 的 神经 网 络 并 没有 区 别 。 以 

此 类 推 ， 只 通过 线性 变换 ， 任 意 层 的 全 连接 神经 网 络 和 单 层 神 经 网 络 模型 的 表达 能 力 没有 

任何 区 别 ， 而 且 它 们 都 是 线性 模型 。 然 而 线性 模型 能 够 解决 的 问题 是 有 限 的 。 这 就 是 线性 

模型 最 大 的 局 限 性 ， 也 是 为 什么 深度 学 习 要 强调 非 线 性 。 在 下 面 的 篇 幅 中 ， 将 通过 

TensorFlow 游乐 场 给 出 一 个 具体 的 例子 来 验证 线性 模型 的 局 限 性 。 


=[Wixi + W2x2] 
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还 是 以 判断 零件 是 否 合格 为 例 ， 输 入 为 x! 和 x。， 其 中 xi 代表 一 个 零件 质量 和 平均 质量 


的 差 ，x, 代表 一 个 零件 长 度 和 平均 长 度 的 差 。 假 设 一 个 零件 的 质量 及 长 度 离 平均 质量 及 长 度 
越 近 ， 那 么 这 个 零件 越 有 可 能 合格 。 于 是 训练 数据 很 有 可 能 服从 图 4-1 所 示 的 分 布 。 


本 村 二 日 
人 的 | 





: 
| 
| 
| 
Ey DS 和 
上 © So we | 
有 号 人 和 -| 
| 
| 
| 
! 
| 


攻 
人 


图 4-1 零件 合格 问题 数据 分 布 示意 图 


图 4-1 上 黑色 的 点 代表 合格 的 零件 ， 而 灰色 的 点 代表 不 合格 的 零件 。 可 以 看 到 虽然 黑 
色 和 灰色 的 点 有 一 些 重合 ， 但 是 大 部 分 代表 合格 零件 的 黑色 点 都 在 原点 (0,0) 的 附近 ， 而 代 
表 不 合格 零件 的 灰 点 都 在 离 原 点 相对 远 的 地 方 。 这 样 的 分 布 比较 接近 真实 问题 ， 因 为 大 部 
分 真实 的 问题 都 存在 大 致 的 趋势 ， 但 是 很 难 甚至 无 法 完全 正确 地 区 分 不 同 的 类 别 。 图 4-2 
显示 了 使 用 TensorFlow 游乐 场 训练 线性 模型 解决 这 个 问题 的 效果 。 


[HDL La {3 ACtiyation Reeobiarezoon Ragulan-aton rale PIC NDS 
| 
000， 1 00 C03 = Linear 本 Nene * Cc = Classficayon = 
| 


| 

| 

| 
DATA FEATURES 十 一 1 HIDDEN LAYER OUTPUT 
Wics daiase!l 00 Which propernies 00 - 本 Es Test Ioss 0 497 
YOU Wo to USE? YDU Want 0 Se2d M7 LE Ttainrd S$ 0 “95 


“加 
加 








图 4-2 使 用 线性 模型 解决 线性 不 可 分 问题 的 效果 
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4-2 使 用 的 模型 有 一 个 隐藏 层 ， 并 且 在 顶部 激活 函数 ” (Activation) 那 一 栏 中 选择 了 
线性 (Linear)， 这 和 3.4.1 小 节 中 介绍 的 神经 网 络 结构 是 基本 一 致 的 。 通 过 TensorFlow 游 
乐 场 对 这 个 模型 训练 100 轮 之 后 ， 在 最 右边 那 一 栏 可 以 看 到 训练 的 结果 。 从 图 4-2 上 可 以 
看 出 ， 这 个 模型 并 不 能 很 好 的 区 分 灰色 的 点 和 黑色 的 点 。 虽 然 整个 平面 的 颜色 都 比较 浅 ， 
但 是 中 间 还 是 隐约 有 一 条 分 界线 ， 这 说 明 这 个 模型 只 能 通过 直线 来 划分 平面 。 如 果 一 个 问 
题 可 以 通过 一 条 直线 来 划分 ， 那 么 线性 模型 也 是 可 以 用 来 解决 这 个 问题 的 。 图 4-3 显示 了 
一 个 可 以 通过 直线 划分 的 数据 。 
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图 4-3 ”使 用 线性 模型 解决 线性 可 分 问题 的 效果 


从 图 4-3 中 可 以 看 出 ， 在 线性 可 分 问题 中 ， 线 性 模型 就 能 很 好 区 分 不 同 颜色 的 点 。 因 
为 线性 模型 束 能 解决 线性 可 分 问题 ， 所 以 在 深度 学 习 的 定义 中 特意 强调 它 的 目的 为 解决 更 
加 复杂 的 问题 。 所 谓 复杂 问题 ， 至 少 是 无 法 通过 直线 〈 或 者 高 维 空间 的 平面 ) 划分 的 。 在 
现实 世界 中 ， 绝 大 部 分 的 问题 都 是 无 法 线性 分 割 的 。 回 到 判断 零件 是 否 合格 的 问题 ， 如 果 
将 激活 函数 换 成 非 线 性 的 , 那么 可 以 得 到 如 图 4-4 所 示 的 结果 。 在 这 个 样 例 中 使 用 了 ReLU 
油 活 函数 。 使 用 其 他 非 线 性 激活 函数 也 可 以 得 到 类 似 的 效果 。 从 图 4-4 中 可 以 看 出 ， 当 加 
入 非 线性 的 元 素 之 后 ， 神 经 网 络 模型 就 可 以 很 好 地 区 分 不 同 颜色 的 点 了 。 








(D4.1.2 小 节 将 详细 介绍 激活 函数 。 
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图 4-4 ”使 用 非 线性 模型 解决 线性 不 可 分 问题 的 效果 
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4.1.1 小 市 已 经 提 到 过 激活 函数 ， 并 在 样 例 中 看 到 了 它 “ 和 神奇” 的 作用 。 在 这 一 个 小 节 
中 , 将 详细 介绍 激活 函数 是 如 何 工作 的 。 在 3.4.2 小 节 中 介绍 的 神经 元 结构 的 输出 为 所 有 和 输 
入 的 加 权 和 ， 这 导致 整个 神经 网 络 是 一 个 线性 模型 。 如 果 将 每 一 个 神经 元 〈 也 就 是 神经 网 
络 中 的 节点) 的 输出 通过 一 个 非 线 性 函数 ， 那 么 整个 神经 网 络 的 模型 也 就 不 再 是 线性 的 了 。 
这 个 非 线 性 函数 就 是 激活 函数 。 图 4-5 显示 了 加 入 激活 函数 和 偏 置 项 之 后 的 神经 元 结构 。 





ww albbt.com DODODDDDOD 





f(xXiwi+ ) 
i 


图 4-5 ”加 入 偏 置 项 和 激活 函数 的 神经 元 结构 示意 图 
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出 了 3.4.2 小 节 中 神经 网 络 结构 加 上 激活 函数 和 偏 置 项 后 的 前 向 传播 算 


OD ww) Ww 
上 mh Ws 


4 =[alyaaya3s]= f(xW™ +b)= f(xi,x2] +[b 2 Bb)) 
WY > 
WY 2 这 


= f (WD + WAY x2 + bi, WO + Wi2x2 + b2, Wi x1 + WI3x2 + b3]) 
=[f (Wi + Wa?x2 十 为) f (WD + Wdx2 + b2), f (Wi3 x + W23x2 + bs)] 
相 比 3.4.2 小 节 中 的 定义 ,上面 的 定义 主要 有 两 个 改变 。 第 一 个 改变 是 新 的 公式 中 增加 
了 偏 置 项 〈bias)， 偏 置 项 是 神经 网 络 中 非常 常用 的 一 种 结构 。 第 二 个 改变 就 是 每 个 斑点 的 
取 值 不 再 是 单纯 的 加 权 和 。 每 个 节点 的 输出 在 加 权 和 的 基础 上 还 做 了 一 个 非 线性 变换 。 图 
4-6 显示 了 几 种 常用 的 非 线性 激活 函数 的 函数 图 像 





Rez1 函 数 ; sigmoid 函 数 ; 
f(x) = max(x, 0) f(x) = f(x) = 


e@—2x 


1 
1+e-* 


图 4-6 常用 的 神经 网 络 激活 函数 的 函数 图 像 


从 图 4-6 中 可 以 看 出 ， 这 些 激活 函数 的 函数 图 像 都 不 是 一 条 直线 。 所 以 通过 这 些 激活 
函数 ， 每 一 个 节点 不 再 是 线性 变换 ， 于 是 整个 神经 网 络 模型 也 就 不 再 是 线性 的 了 。 图 4-7 
给 出 了 加 入 偏 置 项 和 ReLU 激活 函数 之 后 ， ee 直 构 。 

从 图 4-7 中 可 以 看 出 ， 偏 置 项 可 以 被 表达 为 一 个 输出 永远 为 1 的 节点 。 下 面 的 公式 给 
Pate cet he Marneetteepie 

隐藏 层 推导 公式 : 


an=f (Wm +Wr x 十 让 )=f(0.7x0.2+0.9x0.3+(-0.5))= f(-0.09) = 0.09 
aa =f (Wx +WOx2 +b))=f(0.7x0.1+0.9+(-0.5)x0.1)= f(-0.28) = 0.28 
a3=f(W3m+WiIxs 十 及 )) = f(0.7x0.4+0.9x0.2+(-0.1))= f(0.36) = 0.36 


N 
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输出 层 推导 公式 : 
Y=f (Wan + WO az + Wa + )=/(0.09x0.6+0.28x0.1+0.36x(-0.2)+0.1) 


3 


= f(0.054+0.028+(-0.072)+0.1)= f(0.11)=0.11 
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图 4-7 加 入 偏 置 项 和 激活 函数 的 神经 网 络 结构 图 


目前 TensorFlow 提供 了 7 种 不 同 的 非 线性 激活 函数 ，tf.nn.relu、tf.sigmoid 和 tf.tanh 是 
其 中 比较 常用 的 几 个 。 当 然 ，TensorFlow 也 文 持 使 用 目 己 定义 的 激活 函数 。 以 下 代码 展示 
了 如 何 通过 TensorFlow 实现 图 4-7 中 神经 网 络 的 前 向 传播 算法 。 


a = tf.nn.relu(tf.matmul (x, wl1) + bliasesl) 
y = tf.nn.relu(tf.matmul (a, w2) + biases2) 


从 上 面 的 代码 可 以 看 出 ，TensorFlow 可 以 很 好 地 文 持 便 用 了 激活 函数 和 偶 置 项 的 神经 
网 络 。 
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4.1.3 ”多 层 网 络 解决 异 或 运算 


上 面 的 两 个 小 节 详 细 讲 解 了 线性 变换 的 问题 。 在 这 一 小 节 中 ， 将 通过 一 个 实际 问题 来 
讲解 深度 学 习 的 另外 一 个 重要 性 质 一 一 多 层 变 换 。 在 神经 网 络 的 发 展 史 上 ， 一 个 很 重要 的 
问题 就 是 异 或 问题 。 神 经 网 络 的 理论 模型 由 Warren McCulloch 和 Walter Pitts 在 1943 年 首 
次 提出 ， 并 在 1958 年 由 Frank Rosenblatt 提出 了 感知 机 〈perceptron) 模型 ， 从 数学 上 完成 
了 对 神经 网 络 的 精确 建 模 。 感 知 机 可 以 简单 地 理解 为 单 层 的 神经 网 络 ， 图 4-5 中 给 出 的 神 
经 元 结构 就 是 感知 机 的 网 络 结构 。 

感知 机 会 先 将 输入 进行 加 权 和 ， 然 后 再 通过 4.1.2 小 节 中 介绍 的 激活 图 数 最 后 得 到 输 
出 。 这 个 结构 丈 是 一 个 没有 隐 茂 层 的 神经 网 络 。 在 上 个 世纪 60 年代， 神经 网 络 作为 对 人 类 
大 脑 的 模拟 算法 受到 了 很 多 关注 。 然 而 到 了 1969 年 ，Marvin Minsky 和 Seymour Papert 在 
Perceptrons: An Introduction to Computational Geometry 一 书 中 提出 感知 机 是 无 法 模拟 寞 或 
运算 的 ?。 这 里 略 去 复杂 的 数学 求证 过 程 ， 而 是 通过 TensorFlow 游乐 场 来 模拟 一 下 通过 感 
知 机 的 网 络 结构 来 模拟 异 或 运算 。 图 4-8 显示 了 通过 TensorFlow 游乐 场 训练 500 轮 之 后 的 
情况 。 
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图 4-8 ”使 用 单 层 神 经 网 络 解决 异 或 问题 的 效果 图 


图 4-8 使 用 了 一 个 能 够 模拟 异 或 运算 的 数据 集 。 异 或 运算 直观 来 说 就 是 如 有 果 两 个 策 入 
的 符号 相同 时 《同时 为 正 或 者 同时 为 负 ) 则 输出 为 0， 否则 《一 个 正 一 个 负 ) 输出 为 1。 从 


Q 参见 : Minsky, M.; S. Papert. Perceptrons: An Introduction to Computational Geometry [J]. MIT Press,1969, 
ISBN 0-262-63022-2. 


Ya 
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图 4-8 中 可 以 看 出 ， 左 下 和 角 两 个 输入 同时 为 负 )〉 和 右上 角 【〈 两 个 输入 同时 为 正 ) 的 点 为 
黑色 ， 而 另外 两 个 象限 的 点 为 灰色 ， 这 就 符合 异 或 运算 的 计算 规则 。 图 4-8 中 将 隐藏 层 的 
层 数 设 置 为 0， 这 样 就 模拟 了 感知 机 的 模型 。 通 过 500 轮训 练 之 后 ， 可 以 看 到 这 个 感知 机 
模型 并 不 能 将 两 种 不 同 颜色 的 点 分 开 ， 也 就 是 说 感知 机 无 法 模拟 异 或 运算 的 功能 。 

当 加 入 隐藏 层 之 后 ， 异 或 问题 就 可 以 得 到 很 好 地 解决 。 图 4-9 显示 了 一 个 有 4 个 节点 
的 隐藏 层 的 神经 网 络 在 训练 500 轮 之 后 的 效果 。 在 图 4-9 中 ， 除 了 可 以 看 到 最 右边 的 输出 
节点 可 以 很 好 地 区 分 不 同 颜色 的 点 外 ， 更 加 有 意思 的 是 ， 隐 藏 层 的 四 个 节点 中 ， 每 个 节点 
都 有 一 个 角 是 黑色 的 。 这 四 个 隐藏 节点 可 以 被 认为 代表 了 从 输入 特征 中 抽取 的 更 高 维 的 特 
征 。 比 如 第 一 个 节点 可 以 大 致 代表 两 个 输入 的 逻辑 与 操作 的 结果 〈( 当 两 个 输入 都 为 正 数 时 
该 节点 输出 为 正 数 )。 从 这 个 例子 中 可 以 看 到 , 深层 神经 网 络 实际 上 有 组 合 特征 提取 的 功能 。 
这 个 特性 对 于 解决 不 易 提 取 特 征 向 量 的 问题 〈 比 如 图 片 识别 、 语 音 识别 等 ) 有 很 大 帮助 。 
这 也 是 深度 学 习 在 这 些 问题 上 更 加 容易 取得 突破 性 进展 的 原因 。 
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图 4-9 使 用 深层 神经 网 络 解决 异 或 问题 


4.2 损失 函数 定义 


4.1 节 介 绍 了 深度 学 习 的 一 些 性 质 , 并 且 通 过 这 些 性 质 讲解 了 如 何 构造 一 个 更 加 有 效 的 
神经 网 络 。 本 节 将 具体 介绍 如 何 刻 画 不 同 神经 网 络 模型 的 效果 。 神 经 网 络 模型 的 效果 以 及 
优化 的 目标 是 通过 损失 函数 (loss function) 来 定义 的 。 在 4.2.1 小 节 中 ， 将 讲解 适用 于 分 类 问 
题 和 回归 问题 的 经 典 损失 函数 ， 并 通过 TensorFlow 实现 这 些 损失 函数 。 然 后 在 4.2.2 小 节 
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中 ， 将 介绍 如 何 根据 具体 问题 定义 损失 函数 ， 并 通过 具体 样 例 来 说 明 不 同 损失 函数 对 训练 
结果 的 影响 。 


4.2.1 经 典 损失 函数 


分 类 问题 和 回归 问题 是 监督 学 习 的 两 大 种 类 。 这 一 小 节 将 分 别 介绍 分 类 问题 和 回归 问 
题 中 使 用 到 的 经 典 损 失 函 数 。 分 类 问题 希望 解决 的 是 将 不 同 的 样本 分 到 事先 定义 好 的 类 别 
中 。 比 如 在 第 3 章 中 介绍 的 判断 一 个 零件 是 否 合格 的 问题 就 是 一 个 二 分 类 问题 。 在 这 个 问 
题 中 ， 需 要 将 样本 《〈 也 就 是 零件 ) 分 到 合格 或 是 不 合格 两 个 类 别 中 。 在 4.3 节 中 将 要 介绍 
的 手写 体 数 字 识 别 问 题 可 以 被 归纳 成 一 个 十 分 类 问题 。 手 写 体 数字 识别 问题 可 以 被 看 成 将 
一 张 包含 了 数字 的 图 片 分 类 到 0~9 这 10 个 数字 中 。 

在 解决 判断 零件 是 否 合格 的 二 分 类 问题 时 ， 在 第 3 章 中 定义 过 一 个 有 单个 输出 节点 的 
俐 经 网 络 。 当 这 个 节点 的 输出 越 接近 0 时 ， 这 个 样本 越 有 可 能 是 不 合格 的 ， 反 之 如 果 输 出 
越 接 近 1, 则 这 个 样本 越 有 可 能 是 合格 的 。 为 了 给 出 具体 的 分 类 结果 , 可 以 取 0.5 作为 阀 值 。 
凡是 输出 大 于 0.5 的 样本 都 认为 是 合格 的 ,小 于 0.5 的 则 是 不 合格 的 。 然 而 这 样 的 做 法 并 不 
容易 直接 推广 到 多 分 类 的 问题 。 虽 然 设置 多 个 冰 值 在 理论 上 是 可 能 的 ， 但 在 解决 实际 问题 
的 过 程 中 一 般 不 会 这 么 处 理 。 

通过 神经 网 络 解决 多 分 类 问题 最 常用 的 方法 是 设置 n 个 输出 节点 ， 其 中 为 类 别 的 个 
数 。 对 于 每 一 个 样 例 ， 神 经 网 络 可 以 得 到 的 一 个 n 维 数组 作为 输出 结果 。 数 组 中 的 每 一 个 
维度 (也 就 是 每 一 个 输出 节点 ) 对 应 一 个 类 别 。 在 理想 情况 下 ， 如 果 一 个 样本 属于 类 别 k， 
那么 这 个 类 别 所 对 应 的 输出 节点 的 输出 值 应 该 为 1， 而 其 他 节点 的 输出 都 为 0。 以 识别 数字 
1 为 例 ， 神 经 网 络 模型 的 输出 结果 越 接 近 [0,1,0,0,0,0,0,0,0,0] 越 好 。 那 么 如 何 判 断 一 个 输出 
向 量 和 期 望 的 向 量 有 多 接近 呢 ?” 交 了 叉 焙 (cross entropy) 是 常用 的 评判 方法 之 一 。 交 又 粹 刻 
画 了 两 个 概率 分 布 之 间 的 距离 ， 它 是 分 类 问题 中 使 用 比较 广 的 一 种 损失 函数 。 

交叉 烂 是 一 个 信息 论 中 的 概念 ， 它 原本 是 用 来 估算 平均 编码 长 度 的 。 在 本 书 中 不 过 多 
讨论 它 原 本 的 意义 , 而 会 通过 它 的 公式 以 及 具体 的 样 例 来 讲解 它 对 于 评估 分 类 效果 的 意义 。 
给 定 两 个 概率 分 布 和 gqg， 通 过 gq 来 表示 p 的 交叉 焙 为 : 

H(p,q9)=—2_ p(x)log q(x) 

注意 交叉 燃 刻 画 的 是 两 个 概率 分 布 之 间 的 距离 ， 然 而 神经 网 络 的 输出 却 不 一 定 是 一 个 
概率 分 布 。 概 率 分 布 刻 画 了 不 同事 件 发 生 的 概率 。 当 事件 总 数 是 有 限 的 情况 下 ， 概 率 分 布 
函数 p(X = xz) 满足 : 

WO] 且 > p(X=2)=1 
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也 就 是 说 ， 任 意 事件 发 生 的 概率 都 在 0 和 1 之 间 ， 且 总 有 某 一 个 事件 发 生 〈 概 率 的 和 
为 1)。 如 果 将 分 类 问题 中 “一 个 样 例 属于 某 一 个 类 别 ” 看 成 一 个 概率 事件 ， 那 么 训练 数据 
的 正确 答案 就 符合 一 个 概率 分 布 。 因 为 事件 “一 个 样 例 属 于 不 正确 的 类 别 ” 的 概率 为 0， 
而 “一 个 样 例 属于 正确 的 类 别 ” 的 概率 为 1。 如 何 将 神经 网 络 前 向 传播 得 到 的 结果 也 变 成 
概率 分 布 呢 ? Softmax 回归 就 是 一 个 非常 常用 的 方法 。 

Softmax 回归 本 身 可 以 作为 一 个 学 习 算 法 来 优化 分 类 结果 , 但 在 TensorFlow 中 , Softmax 
回归 的 参数 被 去 掉 了 ， 它 只 是 一 层 额外 的 处 理 层 ， 将 神经 网 络 的 输出 变 成 一 个 概率 分 布 。 
图 4-10 展示 了 加 上 了 Softmax 回归 的 神经 网 络 结构 图 。 


原始 输出 层 softmax 层 最 终 输出 屋 





图 4-10 通过 Softmax 层 将 神经 网 络 输出 变 成 一 个 概率 分 布 


假设 原始 的 神经 网 络 输出 为 y1, yz, …, yn， 那 么 经 过 Softmax 回归 处 理 之 后 的 输出 为 : 


yi 


Pi 

从 以 上 公式 中 可 以 看 出 ， 原 始 神 经 网 络 的 输出 被 用 作 置 信和 度 来 生成 新 的 输出 ， 而 新 的 
输出 满足 概率 分 布 的 所 有 要 求 。 这 个 新 的 输出 可 以 理解 为 经 过 神经 网 络 的 推导 ， 一 个 样 例 
为 不 同类 别 的 概率 分 别 是 多 大 。 这 样 就 把 神经 网 络 的 输出 也 变 成 了 一 个 概率 分 布 ， 从 而 可 
以 通过 交叉 科 来 计算 预测 的 概率 分 布 和 真实 答案 的 概率 分 布 之 间 的 距离 了 。 

从 交叉 焙 的 公式 中 可 以 看 到 交叉 箭 函数 不 是 对 称 的 〈 豆 (pz,g) 关 瓦 (q,p) )， 它 刻画 的 是 
通过 概率 分 布 g 来 表达 概率 分 布 p 的 困难 程度 。 因 为 正确 答案 是 希望 得 到 的 结果 ， 所 以 当 
交叉 焙 作 为 神经 网 络 的 损失 函数 时 ，z 代表 的 是 正确 答案 ，9 代表 的 是 预测 值 。 交 叉 炉 刻 画 
的 是 两 个 概率 分 布 的 距离 ， 也 就 是 说 交 义 燃 值 越 小 ， 两 个 概率 分 布 越 接 近 。 下 面 将 给 出 两 
个 具体 样 例 来 直观 地 说 明 通 过 交叉 业 可 以 判断 预测 答案 和 真实 答 生 之 间 的 距离 。 假 设 有 一 
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个 三 分 类 问题 ， 某 个 样 例 的 正确 答案 是 〈1.0.0)。 某 模型 经 过 Softmax 回归 之 后 的 预测 答案 
是 《0.5,0.4,0.1)， 那 么 这 个 预测 和 正确 答案 之 间 的 交叉 炳 为 : 
H((L 0,0),(0.3,0.4, 0. 1)) = 一 (1xyiog0.3+0xlog0.4+0xyiog0.1 ss 0.3 
如 果 另 外 一 个 模型 的 预测 是 (0.8,0.1,0.D)， 那 么 这 个 预测 值 和 真实 值 之 间 的 交叉 焙 是 : 
H((L 0,0),(0.8,0.1,0. 1)) =—(lxlog0.8+0x/log0.1+0x/log0.1) =0.1 
从 各 观 上 可 以 很 容易 地 知道 第 二 个 预测 答案 要 优 于 第 一 个 。 通 过 交叉 焙 计 算得 到 的 结 
果 也 是 一 致 的 (第 二 个 交叉 燃 的 值 更 小 )。 在 3.4.5 小 节 中 ， 已 经 通过 TensorFlow 实现 过 交 
叉 燃 ， 其 代码 实现 如 下 : 
cross” entropya~> tf.reduce mean( 
Vt te og ECLipeby vealue (ylLe=-L0y Le.0))) 
其 中 y_ 代 表 正 确 结 果 ，y 代表 预测 结果 。 本 小 节 将 更 加 具体 的 讲解 这 个 计算 过 程 。 这 
一 行 代码 包含 了 四 个 不 同 的 TensorFlow 运算 。 通 过 tf.clip by_value 函数 可 以 将 一 个 张 量 中 
的 数值 限制 在 一 个 范围 之 内 ， 这 样 可 以 避免 一 些 运算 错误 〈 比 如 1og0 是 无 效 的 )。 下 面 给 
出 了 使 用 萎 clip by value 的 简单 样 例 。 


Vomet oonstant( lb ln Od Oo 0 00 
print tf CliLip by value (vi 2s57 dS) Evall() 
#2 DA dD 0] 


在 上 面 的 样 例 中 可 以 看 到 ， 小 于 2.5 的 数 都 被 换 成 了 2.5， 而 大 于 4.5 的 数 都 被 换 成 了 
4.5。 这 样 通过 长 clip by _value 函数 就 可 以 保证 在 进行 log 运算 时 ， 不 会 出 现 1og0 这 样 的 错 
误 或 者 大 于 1 的 概率 。 第 二 个 运算 是 引 log 函数 , 这 个 函数 完成 了 对 张 量 中 所 有 元 素 依 次 求 
对 数 的 功能 。 以 下 代码 中 给 出 一 个 简单 的 样 例 。 

Vite Constant (ll OPO a 30]) 


prints tfeltogq(v evalt{) 
# 输出 [ 0. 0.69314718 1.09861231] 


第 三 个 运算 是 乘法 ， 在 实现 交叉 粹 的 代码 中 直接 将 两 个 矩阵 通过 “*” 操 作 相 乘 。 这 个 
操作 不 是 算 阵 乘法 ， 而 是 元 素 之 间 直 接 相 乘 。 和 矩阵 乘法 需要 使 用 tmatmul 函数 来 完成 。 下 
面 给 出 了 这 两 个 操作 的 区 别 : 


vi =ut ooconstantlall OO | SQ OH 二 
Vn=etf GOnstant(te eo 06 0 0 le) 


Drinte( Vl Val() 


EN sD el 2 li 2 


print tf.matmul (vi, v2) .eval() 
4 i Oo SO] 
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v1l*v2 的 结果 是 每 个 位 置 上 对 应 元 素 的 乘积 。 比 如 《1,1) 这 个 元 素 的 值 是: 
vil lx val lls1x3=3 
(12) 这 个 元 素 的 人 是 : 
v1 2x val 2]=2x6=12 
以 此 类 推 。 而 给 matmul 水 数 完成 的 是 矩阵 乘法 运算 ， 所 以 〈1,1) 这 个 元 素 的 值 是 : 
vill VL lL 2 1] = 1 7 9 

通过 上 面 这 三 个 运算 完成 了 对 于 每 一 个 样 例 中 的 每 一 个 类 别 交 叉 燃 p(x) Iog g(x) 的 计 
算 。 这 三 步 计 算得 到 的 结果 是 一 个 nxm 的 二 维和 矩阵 ， 其 中 nm 为 一 个 batch 中 样 例 的 数量 ， 
m 为 分 类 的 类 别 数量 。 根 据 交 义 烂 的 公式 ， 应 该 将 每 行 中 的 m 个 结果 相 加 得 到 所 有 样 例 的 
交叉 焙 ， 然 后 再 对 这 n 行 取 平 均 得 到 一 个 batch 的 平均 交叉 燃 。 但 因为 分 类 问题 的 类 别 数 
量 是 不 变 的 ， 所 以 可 以 直接 对 整个 矩阵 做 平均 而 并 不 改变 计算 结果 的 意义 。 这 样 的 方式 可 
以 使 整个 程序 更 加 简洁 。 以 下 代码 简单 展示 了 ttreduce_ mean 函数 的 使 用 方法 。 

CGITLES 站 下 民间 2 村] 

print tf.reduce mean(v) .eval () # 输出 3.5 

因为 交叉 炉 一 般 会 与 softmax 回归 一 起 使 用 ， 所 以 TensorFlow 对 这 两 个 功能 进行 了 统 
一 封装 ， 并 提供 了 tf.nn.softmax cross_entropy_ with logits 函数 。 比 如 可 以 直接 通过 下 面 的 
代码 来 实现 使 用 了 softmax 回归 之 后 的 交叉 烂 损失 函数 : 


cross entropy = tf.nn.softmax cross entropy with logits(y; y ) 


其 中 y 代表 了 原始 神经 网 络 的 输出 结果 ， 而 y_ 给 出 了 标准 答案 。 这 样 通过 一 个 命令 就 
可 以 得 到 使 用 了 Softmax 回归 之 后 的 交叉 焙 。 在 只 有 一 个 正确 答案 的 分 类 问题 中 ， 
TensorFlow 提供 了 tnn.sparse softmax cross entropy with logits 滑 数 来 进一步 加 速 计算 过 
程 。 在 第 5 章 中 将 提供 使 用 这 个 函数 的 完整 样 例 。 

与 分 类 问题 不 同 ， 回 归 问 题解 决 的 是 对 具体 数值 的 预测 。 比 如 房价 预测 、 销 量 预 测 等 
都 是 回归 问题 。 这 些 问题 需要 预测 的 不 是 一 个 事先 定义 好 的 类 别 ， 而 是 一 个 任意 实数 。 解 
决 回 归 问 题 的 神经 网 络 一 般 只 有 一 个 输出 节点 ， 这 个 节操 的 输出 值 束 是 预测 值 。 对 于 回归 
问题 ， 最 常用 的 损失 函数 是 均 方 误差 (MSE，mean squared error) 9。 它 的 定义 如 下 : 
> Or 

n 

其 中 y; 为 一 个 batch 中 第 i 个 数据 的 正确 答案 , 而 yi 为 神经 网 络 给 出 的 预测 值 。 以 下 代 

码 展示 了 如 何 通 过 TensorFlow 实现 均 方 误差 损失 函数 : 


mSses=—— fsreducesmean(tf square (Ye ty)) 


MSE(y,y') = 


(DD 均 方 误差 也 是 分 类 问题 中 常用 的 一 种 损失 函数 。 
Yi 
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其 中 y 代表 了 神经 网 络 的 输出 答案 , y_ 代 表 了 标准 答案 。 类 似 4.2.1 小 节 中 介绍 的 乘法 
操作 ， 这 里 的 减法 运算 “-” 也 是 两 个 矩阵 中 对 应 元 素 的 减法 。 


4.2.2 ” 目 定 义 损 失 图 数 


TensorFlow 不 仅 文 持 经 典 的 损失 函数 ， 还 可 以 优化 任意 的 目 定义 损失 函数 。 本 小 节 将 
介绍 如 何 通 过 目 定 义 损失 函数 的 方法 , 使 得 神经 网 络 优化 的 结果 更 加 接近 实际 问题 的 需求 。 
在 下 面 的 篇 幅 中 将 以 预测 商品 销量 问题 为 例 。 

在 预测 商品 销量 时 ， 如 果 预 测 多 了 【预测 值 比 真 实 销量 大 )， 商 家 损失 的 是 生产 商品 的 
成 本 ; 而 如 果 预 测 少 了 《预测 值 比 真实 销量 小 )， 损 失 的 则 是 商品 的 利润 。 因 为 一 般 商 品 的 
成 本 和 商品 的 利润 不 会 严格 相等 , 所 以 使 用 4.2.1 小 节 中 介绍 的 均 方 误差 损失 函数 就 不 能 够 
很 好 地 最 大 化 销售 利润 。 比 如 如 果 一 个 商品 的 成 本 是 1 元 , 但 是 利润 是 10 元 ， 那么 少 预 测 
一 个 就 少 挣 10 元 ; 而 多 预测 一 个 才 少 挣 1 元 。 如 果 神 经 网 络 模型 最 小 化 的 是 均 方 误 状 ， 那 
么 很 有 可 能 此 模型 就 无 法 最 大 化 预期 的 利润 。 为 了 最 大 化 预期 利润 ， 需 要 将 损失 函数 和 利 
润 直 接 联系 起 来 。 注 意 损失 函数 定义 的 是 损失 ， 所 以 要 将 利润 最 大 化 ， 定 义 的 损失 函数 应 
该 刻画 成 本 或 者 代价 。 下 面 的 公式 给 出 了 一 个 当 预 测 多 于 真实 值 和 预测 少 于 真实 值 时 有 不 
同 损失 系数 的 损失 函数 : 

a(xX—y) Xx>y 


Loss(y,y') = 2,f (yi,7), je- XSy 
i=l 人 


和 均 方 误差 公式 类 似 ，y; 为 一 个 batch 中 第 i 个 数据 的 正确 答案 ，yi 为 神经 网 络 得 到 的 
预测 值 ，a 和 4b 是 常量 。 比 如 在 上 面 介 绍 的 销量 预测 问题 中 ，a 就 等 于 10〈 正 确 答案 多 于 
预测 答案 的 代价 )， 而 2 等 于 1〈 正 确 答案 少 于 预测 答案 的 代价 )。 通 过 对 这 个 目 定义 损失 
函数 的 优化 ， 模 型 提供 的 预测 值 更 有 可 能 最 大 化 收益 。 在 TensorFlow 中 ， 可 以 通过 以 下 代 
码 来 实现 这 个 损失 函数 。 

loss = tf.reduce sum(tf.select (tf.greater (v1, 2 : 

(vl Tv) #* a, (v2 - vi) * b)) 

上 面 的 代码 用 到 了 tf.greater 和 给 .select 来 实现 选择 操作 。tf.greater 的 输入 是 两 个 张 量 ， 
此 函数 会 比较 这 两 个 输入 张 量 中 每 一 个 元 素 的 大 小 ， 并 返回 比较 结果 。 当 外 greater 的 输入 
张 量 维度 不 一 样 时 , TensorFlow 会 进行 类 似 NumPy 广播 操作 (broadcasting) 的 处 理 ”。tf.select 
函数 有 三 个 参数 。 第 一 个 为 选择 条 件 根据 ， 当 选择 条 件 为 True 时 ，tfselect 函数 会 选择 第 
二 个 参数 中 的 值 , 否则 使 用 第 三 个 参数 中 的 值 。 注 意 tfselect 函数 判断 和 选择 都 是 在 元 素 级 


@ http://docs.scipy.org/doc/numpy/user/basics.broadcasting.html 中 有 关于 广播 操作 〈broadcasting) 的 具体 讲解 。 
78 4 


ww albbt.com DODODDDDOD 





第 4 章 ， 深层 神经 网 络 


别 进行 ， 以 下 代码 展示 了 tselect 函数 和 tf.greater 函数 的 用 法 。 


import tensorflow as tf 
l= eoOrotant (ain 2 0 0A 
Vo OnStant (dA O30 0 0als) 


sess = tf.InteractiveSession () 
print tf.greater (v1l, v2).eval() 
# 输出 [False False True Truej 


print tf.select'(tf.greater(vilr ve)r Vly V2) .eval.() 
# 输出 [S39. :3.5 4 ] 


sess.close() 


在 定义 了 损失 函数 之 后 ， 下 面 将 通过 一 个 简单 的 神经 网 络 程序 来 讲解 损失 函数 对 模型 
训练 结果 的 影响 。 在 下 面 这 个 程序 中 ， 实 现 了 一 个 拥有 两 个 答 入 市 尽 、 一 个 输出 节操 ， 没 
有 隐藏 层 的 神经 网 络 。 这 个 程序 的 主体 流程 和 3.4.5 小 节 中 给 出 来 的 样 例 基本 一 致 , 但 用 到 
了 上 面 定 义 的 损失 函数 。 

Tmortstensortlow.as: tt 

from numpy.random import RandomState 


batch :si2ess.8 


# 两 个 输入 节操 。 

x = tf.placeholder (tf.float32, shape=(None, 2), name="'x-input’) 
# 回归 问题 一 般 只 有 一 个 输出 太 挟 。 

VY tf.placeholder (tf.float32, shape=(None, 1), name='y-input') 


# 定义 了 一 个 单 层 的 神经 网 络 前 向 传播 的 过 程 ， 这 里 就 是 简单 加 权 和 。 
WE Variable(ttsrandcm normal (Lor ellr Stddev=17:Seed=L)) 
y = tf.matmul (x, wl1) ; 


# 定义 预测 多 了 和 预测 少 了 的 成 本 。 
于 局 SS SLeSS 人 = S10 
1 OS'SEmMO 和 ess 
loss. = tf,.reduce- sum(tf.select(tf.greater (Yr::Y: )' 
(Wy loss more, 
(Ys LOSS :TOSS)) 
train step = tf.train.AdamOptimizer(0.001) .minimize (loss) 


# 通过 随机 数 生成 一 个 模拟 数据 集 。 
rdm = RandomSstate (1) 
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dataset size:=: 128 

X= on rancd(dataset sie, 2 

# 充 置 回归 的 正确 值 为 两 个 输入 的 和 加 上 一 个 随机 量 。 之 所 以 要 加 上 一 个 随机 量 是 为 了 

# 加 入 不 可 预测 的 噪音 ， 否 则 不 同 损 失 函 数 的 意义 就 不 大 了 ， 因 为 不 同 损失 函数 都 会 在 能 

# 完全 预测 正确 的 时 候 最 低 。 一 般 来 说 噪音 为 一 个 均值 为 0 的 小 量 ， 所 以 这 里 的 噪音 设置 为 
# -0.05 ~ 0.05 的 随机 数 。 

Y= [XL romerand (E00=00D] Eor (el SEO 


# 训练 神经 网 络 。 
With- tOSSSion (as Sess: 
init op = tf.initialize all variables'\() 
sess.run(init op) 
STEPS:==500.0 
for 1 in range (STEPS): 
starta=s a(L Kt Datch sioe) st dataset size 
end =.:min(start+bateh sizersdataset size) 
sess~run(train “stepy 
reed dict={X.: Xfstart:end]r ey LS 二 an 起 
print sess.run (wl) 


运行 上 面 的 代码 会 得 到 wi 的 值 为 [1.01934695, 1.04280889]， 也 就 是 说 得 到 的 预测 函数 
是 xi+xz， 这 要 比 1.02xi+1.04x， 大 ， 因 为 在 损失 函数 中 指定 预测 少 了 的 损失 更 大 
(loss_ less>loss more)。 如 果 将 loss less 的 值 调 整 为 1，loss _ more 的 值 调 整 为 10， 那 么 wi 
的 值 将 会 是 [0.95525807，0.9813394]。 也 就 是 说 ， 在 这 样 的 设置 下 ， 模 型 会 更 加 偏向 于 预 
测 少 一 点 。 而 如 果 使 用 均 方 误差 作为 损失 函数 ， 那 么 wi 会 是 [0.97437561，1.0243336]。 使 
用 这 个 损失 函数 会 尽量 让 预测 值 离 标准 答案 更 近 。 通 过 这 个 样 例 可 以 感受 到 ， 对 于 相同 的 
神经 网 络 ， 不 同 的 损失 函数 会 对 训练 得 到 的 模型 产生 重要 影响 。 


4.3 ”神经 网 络 优化 算法 


本 市 将 更 加 有 具体 地 介绍 如 何 通 过 反 疝 传播 算法 (backpropagation ) 和 梯度 下 降 算 法 
(gradient decent) 调 整 神经 网 络 中 参数 的 取 值 。 梯 度 下 降 算 法 主要 用 于 优化 单个 参数 的 取 值 ， 
而 反问 传播 算法 给 出 了 一 个 高 效 的 方式 在 所 有 参数 上 使 用 梯度 下 降 算 法 ， 从 而 使 神经 网 络 
模型 在 训练 数据 上 的 损失 函数 尽 可 能 小 。 反 疝 传 播 算法 是 训练 神经 网 络 的 核心 算法 ， 它 可 
以 根据 定义 好 的 损失 函数 优化 神经 网 络 中 参数 的 取 值 ， 从 而 使 神经 网 络 模型 在 训练 数据 集 
上 的 损失 函数 达到 一 个 较 小 值 。 神 经 网 络 模型 中 参数 的 优化 过 程 直接 决定 了 模型 的 质量 ， 
是 使 用 神经 网 络 时 非常 重要 的 一 步 。 在 本 节 中 ， 将 主要 介绍 神经 网 络 优化 过 程 的 基本 概念 
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和 主要 思想 ， 而 略 去 算法 的 数学 推导 和 证 明 ”"。 本 节 将 给 出 一 个 具体 的 样 例 来 解释 使 用 梯度 
下 降 算法 优化 参数 取 值 的 过 程 。 在 下 面 的 4.4 节 中 ， 将 继续 介绍 的 神经 网 络 优 化 过 程 中 可 
能 遇 到 的 问题 和 解决 方法 ， 掌 握 本 市 内 容 可 以 帮助 更 好 地 理解 这 些 优化 方法 。 

假设 用 9 表示 神经 网 络 中 的 参数 ，J(9) 表示 在 给 定 的 参数 取 值 下 ， 训 练 数据 集 上 损失 
函数 的 大 小 ， 那 么 整个 优化 过 程 可 以 抽象 为 寻找 一 个 参数 0 ， 使 得 7J(9) 最 小 。 因 为 目前 没 
有 一 个 通用 的 方法 可 以 对 任意 损失 函数 直接 求解 最 佳 的 参数 取 值 ， 所 以 在 实践 中 ， 梯 度 下 
降 算法 是 最 常用 的 神经 网 络 优化 方法 。 梯 度 下 降 算 法 会 碗 代 式 更 新 参数 9 ， 不 断 沿 着 梯度 
的 有 反方 向 让 参数 朝 着 总 损失 更 小 的 方 同 更 新 。 图 4-11 展示 了 梯度 下 降 算 法 的 原理 。 


1(8) 


图 4-11 梯度 下 降 算 法 思想 示意 图 


图 4-11 中 x 轴 表示 参数 9 的 取 值 , y 轴 表 示 损失 函数 .7(9) 的 值 。 图 4-11 的 曲线 表示 了 
在 参数 9 取 不 同 值 时 ， 对 应 损失 函数 J(9) 的 大 小 。 假 设 当前 的 参数 和 损失 值 对 应 图 4-11 中 
小 圆 点 的 位 置 ， 那 么 梯度 下 降 算法 会 将 参数 向 x 轴 左 侧 移动 ， 从 而 使 得 小 圆 点 朝 着 箭头 的 
方向 移动 。 参 数 的 梯度 可 以 通过 求 偏 导 的 方式 计算 ,对 于 参数 9， 其 梯度 为 二 -J(9) 。 有 了 


梯度 ， 还 需要 定义 一 个 学 习 率 7 2 (learning rate) 来 定义 每 次 参数 更 新 的 幅度 。 从 直观 上 理 

解 ， 可 以 认为 学 习 率 定义 的 就 是 每 次 参数 移动 的 幅度 。 通 过 参数 的 梯度 和 学 习 率 ， 参 数 更 
新 的 公式 为 : 

0 

00， 

下 面 给 出 了 一 个 具体 的 例子 来 说 明 梯 度 下 降 算法 是 如 何 工 作 的 。 假 设 要 通过 梯度 下 降 


2 By 





Oa 一 On py 


(QD 更 多 关于 反 向 传播 算法 的 细节 可 以 参见 : Rumelhart D E, Hinton G E, Williams R J. Learning 
representations by back-propagating errors [M|Neurocomputing: foundations of research. MIT Press, 1986.。 


@ 学 习 率 的 设置 将 在 4.4.1 小 节 中 详细 介绍 。 
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算法 来 优化 参数 x， 使 得 损失 函数 .oo=x 的 值 尽 量 小 。 梯 度 下 降 算 法 的 第 一 步 需要 随机 产 
生 一 个 参数 x 的 初始 值 ， 然 后 再 通过 梯度 和 学 习 率 来 更 新 参数 x 的 取 值 。 在 这 个 样 例 中 ， 


参数 x 的 梯度 为 V- 一 时 -2x， 那么 使 用 梯度 下 降 算 法 每 次 对 参数 x 的 更 新 公式 为 


Xxntl=Xn 一 7Vn。 假 设 参数 的 初始 值 为 5, 学 习 率 为 0.3, 那么 这 个 优化 过 程 可 以 总 结 为 表 4-1。 


表 4-1 使 用 梯度 下 降 算法 优化 函数 (x)=x? 
梯度 x 学 习 率 更 新 后 参数 值 





从 表 4-1 中 可 以 看 出 ， 经 过 5 次 达 代 之 后 ， 参 数 x 的 值 变 成 了 0.0512， 这 个 和 参数 最 
优 值 0 已 经 比较 接近 了 。 虽 然 这 里 给 出 的 是 一 个 非常 简单 的 样 例 ， 但 是 神经 网 络 的 优化 过 
程 也 是 可 以 类 推 的 。 神 经 网 络 的 优化 过 程 可 以 分 为 两 个 阶段 ， 第 一 个 阶段 先 通 过 前 同 传播 
算法 计算 得 到 预测 值 ， 并 将 预测 值 和 真实 值 做 对 比 得 出 两 者 之 间 的 达 距 。 然 后 在 第 二 个 阶 
段 通过 反 向 传播 算法 计算 损失 函数 对 每 一 个 参数 的 梯度 ， 再 根据 梯度 和 学 习 率 使 用 梯度 下 
降 算 法 更 新 每 一 个 参数 。 本 书 将 略 去 反 向 传播 算法 具体 的 实现 方法 和 数学 证 明 ， 有 兴趣 的 
读者 可 以 参考 David Rumelhart、Geoffrey Hinton 和 了 Ronald Williams 教授 发 表 的 论文 Learning 
representations by back-propagating errors”。 

需要 注意 的 是 ， 梯 度 下 降 算 法 并 不 能 保证 被 优化 的 函数 达到 全 局 最 优 解 。 如 图 4-12 所 
示 ， 图 中 给 出 的 函数 就 有 可 能 只 能 得 到 局 部 最 优 解 而 不 是 全 局 最 优 解 。 在 小 黑 点 处 ， 损 失 
函数 的 偏 导 为 0， 于 是 参数 就 不 会 再 进一步 更 新 。 在 这 个 样 例 中 ， 如 果 参 数 x 的 初始 值 洛 


只 有 当 x 的 初始 值 落 在 左 侧 浅 色 的 区 间 时 梯度 下 降 才 能 给 出 全 局 最 优 答案 。 由 此 可 见 在 训 
练 神经 网 络 时 ， 参 数 的 初始 值 会 很 大 程度 影响 最 后 得 到 的 结果 。 只 有 当 损 失 函 数 为 凸 函数 
时 ， 梯 度 下 降 算 法 才能 保证 达到 全 局 最 优 解 。 


GD Rumelhart D E, Hinton G E, Williams R J. Learning representations by back-propagating errors [MI]. 


Neurocomputing: foundations of research. MIT Press, 1986. 
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图 4-12 梯度 下 降 算 法 得 不 到 全 局 最 小 值 的 样 例 


除了 不 一 定 能 达到 全 局 最 优 外 ， 梯 上 度 下 降 算 法 的 男 外 一 个 问题 就 是 计算 时 间 太 长 。 因 
为 要 在 全 部 训练 数据 上 最 小 化 损失 ， 所 以 损失 函数 .7(O) 是 在 所 有 训练 数据 上 的 损失 和 。 这 
样 在 每 一 轮 迭 代 中 都 需要 计算 在 全 部 训练 数据 上 的 损失 也 数 。 在 海量 训练 数据 下 ， 要 计算 
所 有 训练 数据 的 损失 函数 是 非常 消耗 时 间 的 。 为 了 加 速 训练 过 程 ， 可 以 使 用 随机 梯度 下 降 
的 算法 (stochastic gradient descent)。 这 个 算法 优化 的 不 是 在 全 部 训练 数据 上 的 损失 函数 ， 
而 是 在 每 一 轮 妈 代 中 ， 随 机 优化 某 一 条 训练 数据 上 的 损失 函数 。 这 样 每 一 轮 参 数 更 新 的 速 
度 就 大 大 加 快 了 。 因 为 随机 梯度 下 降 算 法 每 次 优化 的 只 是 某 一 条 数据 上 的 损失 函数 ， 所 以 
它 的 问题 也 非常 明显 : 在 某 一 条 数据 上 损失 函数 更 小 并 不 代表 在 全 部 数据 上 损失 函数 更 小 ， 
于 是 使 用 随机 梯度 下 降 优 化 得 到 的 神经 网 络 甚至 可 能 无 法 达到 局 部 最 优 。 

为 了 综合 梯度 下 降 算 法 和 随机 梯度 下 降 算 法 的 优 缺 点 ， 在 实际 应 用 中 一 般 采 用 这 两 个 
算法 的 折 中 一 一 每 次 计算 一 小 部 分 训练 数据 的 损失 函数 。 这 一 小 部 分 数据 被 称 之 为 一 个 
batch。 通 过 和 矩阵 运算 ， 每 次 在 一 个 batch 上 优化 神经 网 络 的 参数 并 不 会 比 单个 数据 慢 太 多 。 
另 一 方面 ， 每 次 使 用 一 个 batch 可 以 大 大 减 小 收敛 所 需要 的 迭代 次 数 ， 同 时 可 以 使 收敛 到 
的 结果 更 加 接近 梯度 下 降 的 效果 。 以 下 代码 给 出 了 在 TensorFlow 中 如 何 实现 神经 网 络 的 训 
练 过程 。 在 本 书 的 所 有 样 例 中 ， 神 经 网 络 的 训练 都 大 致 遵循 以 下 过 程 。 

batch siZen=. z 

# 每 次 读 取 一 小 部 分 数据 作为 当前 的 训练 数据 来 执行 反 向 传播 算法 。 - 


x = tf.placeholder(tf.float32, shape=(batch size, 2), name='x-input') 
v= placeholder{(tt.. fioat32F :shape=(batcomn sizer :Ll) rr name= ry=1nBut:) 


# 定义 神经 网 络 结构 和 优化 算法 。 
TOSS 
train Step = tf.train.AdamOptimizer (0.001) .minimize (loss) 


# 训练 神经 网 络 。 
-with tf.Session() as sess: 
# 参数 初始 化 。 
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# 运 代 的 更 新 参数 。 
上 GT ELREESTGOeXSTEBES) 
# 准备 batch_size 个 训练 数据 。 一 般 将 所 有 训练 数据 随机 打 乱 之 后 再 选取 可 以 得 到 
# 更 好 的 优化 效果 。 
CULDeNbD A :CULONL KY 
SeSS,rUn(tralin. steprEeed dict={x: Current Xr Sy Current Y}) 


4.4 ”神经 网 络 进 一 步 优 化 


4.3 节 介 绍 了 优化 神经 网 络 的 基本 算法 , 本 节 将 继续 介绍 神经 网 络 优化 过 程 中 可 能 遇 到 
的 一 些 问题 ， 以 及 解决 这 些 问 题 的 常用 方法 。4.4.1 小 节 将 介绍 通过 指数 衰减 的 方法 设置 梯 
度 下 降 复 法 中 的 学 习 率 。 通 过 指数 衰减 的 学 习 率 即 可 以 让 模型 在 训练 的 前 期 快速 接近 较 优 
解 ， 又 可 以 保证 模型 在 训练 后 期 不 会 有 太 大 的 波动 ， 从 而 更 加 接近 局 部 最 优 。 然 后 4.4.2 小 
廊 将 介绍 过 拟 合 问题 。 在 训练 复杂 神经 网 络 模 型 时 ， 过 拟 合 是 一 个 非常 常见 的 问题 。 这 一 
小 太 将 具体 介绍 这 个 问题 的 影响 以 及 解决 这 个 问题 的 主要 方法 ,最 后 4.4.3 小 节 将 介 绍 滑动 
平均 模型 。 滑 动 平均 模型 会 将 每 一 轮 迭 代 得 到 的 模型 综合 起 来 ， 从 而 使 得 最 终 得 到 的 模型 
更 加 健壮 〈robust)。 


4.4.1 学 习 率 的 设置 


4.3 蔬 介 绍 了 在 训练 神经 网 络 时 ,需要 设置 学 习 率 (learning rate ) 控制 参数 更 新 的 速度 。 
本 小 节 将 进一步 介绍 如 何 设置 学 习 率 。 学 习 率 决定 了 参数 每 次 更 新 的 幅度 。 如 果 幅 度 过 大 ， 
那么 可 能 导致 参数 在 极 优 值 的 两 侧 来 回 移动 。4.3 节 介 绍 过 优化 J(x)=x? 函数 的 样 例 。 如 果 
在 优化 中 使 用 的 学 习 率 为 1， 那么 整个 优化 过 程 将 会 如 表 4-2 所 示 。 


表 4-2 当 学 习 率 过 大 时 ， 梯 度 下 降 算法 的 运行 过 程 


0 
人 一 
| 


从 上 面 的 样 例 可 以 看 出 ， 无 论 进 行 多少 轮 迭代 ， 参 数 将 在 5 和 -5 之 间 播 摆 ， 而 不 会 收 
敛 到 一 个 极 小 值 。 相 反 ， 当 学 习 率 过 小 时 ， 虽 然 能 保证 收敛 性 ， 但 是 这 会 大 大 降低 优化 速 
度 。 我 们 会 需要 更 多 轮 的 迭代 才能 达到 一 个 比较 理想 的 优化 效果 。 比 如 当 学 习 率 为 0.001 
时 ， 运 代 5 次 之 后 , x 的 值 将 为 4.95。 要 将 x 训练 到 0.05 需要 大 约 2300 轮 ; 而 当 学 习 率 为 
0.3 时 ， 只 需要 5 轮 束 可 以 达到 。 综 上 所 述 ， 和 学习 率 既 不 能 过 大 ， 也 不 能 过 小 。 为 了 解决 设 
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定 学 习 率 的 问题 ，TensorFlow 提供 了 一 种 更 加 灵活 的 学 习 率 设置 方法 利 数 衰减 法 。 
tftrain.exponential decay 函数 实现 了 指数 袁 减 学 习 率 。 通 过 这 个 函数 ， 可 以 先 使 用 较 大 的 学 
习 率 来 快速 得 到 一 个 比较 优 的 解 ， 然 后 随 着 迭代 的 继续 逐步 减 小 学 习 率 ， 使 得 模型 在 训练 后 
期 更 加 稳定 。exponential decay 函数 会 指数 级 地 减 小 学 习 率 ， 它 实现 了 以 下 代码 的 功能 : 


decayed learning rate = \ 
learning rate * decay rate ^ (global step / decay steps) 


其 中 decayed learning_rate 为 每 一 轮 优 化 时 使 用 的 学 习 率 ，learming rate 为 事先 设 定 的 
初始 学 习 率 ，decay rate 为 衰减 系数 ，decay_steps 为 衰减 速度 。 图 4-13 显示 了 随 着 迭代 轮 
数 的 增加 ,学 习 率 逐步 降低 的 过 程 。tftrain.exponential decay 函数 可 以 通过 设置 参数 staircase 
选择 不 同 的 衰减 方式 。staircase 的 默认 值 为 False， 这 时 学 习 率 随和 迭代 轮 数 变 化 的 趋势 如 图 
4-13 中 灰色 曲线 所 示 。 当 staircase 的 值 被 设置 为 True 时 ，global step / decay steps 会 被 转 
化 成 整数 。 这 使 得 学 习 率 成 为 一 个 阶梯 函数 (staircase function)。 图 4-13 中 黑色 曲线 显示 
了 阶梯 状 的 学 习 率 。 在 这 样 的 设置 下 ，decay_steps 通常 代表 了 完整 的 使 用 一 遍 训练 数据 所 
需要 的 迭代 轮 数 。 这 个 迭代 轮 数 也 就 是 总 训练 样本 数 除 以 每 一 个 batch 中 的 训练 样本 数 。 
这 种 设置 的 常用 场景 是 每 完整 地 过 完 一 遍 训练 数据 ， 学 习 率 就 减 小 一 次 。 这 可 以 使 得 训练 
数据 集中 的 所 有 数据 对 模型 训练 有 相等 的 作用 。 当 使 用 连续 的 指数 衰减 学 习 率 时 ， 不 同 的 
训练 数据 有 不 同 的 学 习 率 ， 而 当 学 习 率 减 小 时 ， 对 应 的 训练 数据 对 模型 训练 结果 的 影响 也 就 
小 了 。 下 面 给 出 了 一 段 代 码 来 示范 如 何在 TensorFlow 中 使 用 ttrain.exponential decay 函数 。 













ee 站 杭 状 衰减 宇 习 率 连续 衰减 学 习 率 








1 10 091 2 S30 .3520 A451 S01 5 G0L 65 70 V5L BOL B31L DL 2957 


训练 迭代 轮 数 





图 4-13 ”指数 衰减 学 习 率 随 着 欠 代 轮 数 的 变化 图 
(图 中 使 用 的 基础 学 习 率 为 0.1， 衰 减 率 为 0.9， 衰 减速 度 为 50) 
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global step = tf.Variable (0) 


# 通过 exponential decay 函数 生成 学 习 率 。 
learning rate = tf.train.exponential decayl( 
0 globalsstepy. 100% O906rSSstarlrcase=True) 


# 使 用 指数 衰减 的 学 习 率 。 在 minimize 函数 中 传 入 global step 将 自动 更 新 

# global_step 参数 ， 从 而 使 得 学 习 率 也 得 到 相应 更 新 。 

learning step = tf.train.GradientDescentOptimizer (learning rate)\ 
“MinNnimize (sa my LOSSs .rr :Giobal :step=global step) 


上 面 这 段 代码 中 设 定 了 初始 学 习 率 为 0.1， 因 为 指定 了 staircase=True， 所 以 每 训练 100 
轮 后 学 习 率 乘 以 0.96。 一 般 来 说 初始 学 习 率 、 袁 减 系数 和 衰减 速度 都 是 根据 经 验 设 置 的 。 
而 且 损失 函数 下 降 的 速度 和 迭代 结束 之 后 总 损失 的 大 小 没有 必然 的 联系 。 也 了 吏 是 说 并 不 能 
通过 前 几 轮 损 失 函 数 下 降 的 速度 来 比较 不 同 神 经 网 络 的 效果 。 


4.4.2 ”过 拟 合 问题 


上 面 的 4.2 和 4.3 节 讲 述 了 如 何在 训练 数据 上 优化 一 个 给 定 的 损失 函数 。 然 而 在 真实 的 
应 用 中 想 要 的 并 不 是 让 模型 尽量 模拟 训练 数据 的 行为 ， 而 是 希望 通过 训练 出 来 的 模型 对 未 
知 的 数据 给 出 判断 。 模 型 在 训练 数据 上 的 表现 并 不 一 定 代 表 了 它 在 未 知 数据 上 的 表现 。 本 
小 节 将 介绍 的 过 拟 合 问题 就 是 可 以 导致 这 个 差距 的 一 个 很 重要 因素 。 所 谓 过 拟 合 ， 指 的 是 
当 一 个 模型 过 为 复杂 之 后 ， 它 可 以 很 好 地 “记忆 ”每 一 个 训练 数据 中 随机 噪音 的 部 分 而 忘 
记 了 要 去 “学 习 ” 训 练 数据 中 通用 的 趋势 。 举 一 个 极端 的 例子 ， 如 果 一 个 模型 中 的 参数 
比 训练 数据 的 总 数 还 多 ， 那 么 只 要 训练 数据 不 冲突 ， 这 个 模型 完全 可 以 记 住 所 有 训练 数 
据 的 结果 从 而 使 得 损失 函数 为 0. 可 以 直观 地 想象 一 个 包含 n 个 变量 和 nn 个 等 式 的 方程 组 ， 
当 方 程 不 冲突 时 ， 这 个 方程 组 是 可 以 通过 数学 的 方法 来 求解 的 。 然 而 ， 过 度 拟 合 训练 数 
据 中 的 随机 噪音 虽然 可 以 得 到 非常 小 的 损失 函数 ， 但 是 对 于 未 知 数据 可 能 无 法 做 出 可 靠 
的 判断 。 

图 4-14 显示 了 模型 训练 的 三 种 不 同情 况 。 在 第 一 种 情况 下 ， 由 于 模型 过 于 简单 ， 无 法 
刻画 问题 的 趋势 。 第 二 个 模型 是 比较 合理 的 ， 它 既 不 会 过 于 关注 训练 数据 中 的 噪音 ， 又 能 
够 比较 好 地 刻画 问题 的 整体 趋势 。 第 三 个 模型 就 是 过 拟 合 了 ， 虽 然 第 三 个 模型 完美 地 划分 
了 不 同形 状 的 点 ， 但 是 这 样 的 划分 并 不 能 很 好 地 对 未 知 数据 做 出 判断 ， 因 为 它 过 度 拟 合 了 
”训练 数据 中 的 噪音 而 忽视 了 问题 的 整体 规律 。 比 如 图 中 小 色 方 框 “ 口 ”更 有 可 能 和 “X” 
属于 同一 类 ， 而 不 是 根据 图 上 的 划分 和 “0O” 属 于 同一 类 ，。 
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中 














. 模型 过 于 简单 





图 4-14 ”神经 网 络 模型 训练 的 三 种 情况 


为 了 避免 过 拟 合 问题 ， 一 个 非常 常用 的 方法 是 正则 化 (regularization )。 正 则 化 的 思想 
就 是 在 损失 函数 中 加 入 刻画 模型 复杂 程度 的 指标 。 假 设 用 于 刻画 模型 在 训练 数据 上 表现 的 
损失 函数 为 7(9) ,那么 在 优化 时 不 是 直接 优化 7(9) ,而 是 优化 J(6)+4R(w)。 其 中 R(w) 刻 
男 的 是 模型 的 复杂 程度 ， 而 4 表示 模型 复杂 损失 在 总 损失 中 的 比例 。 注意 这 里 9 表示 的 是 一 
个 神经 网 络 中 所 有 的 参数 ， 它 包括 边 上 的 权重 w 和 偏 置 项 5。 一 般 来 说 模型 复杂 度 只 由 权重 
w 决定 。 篆 用 的 刻画 模型 复杂 上 度 的 函数 R(w) 有 两 种 ， 一 种 是 L1 正则 化 ， 计 算 公 式 是 : 

gow) =|ol = Fhe 


另 一 种 是 22 正则 化 ， 计 算 公 式 是 : 
ROW=| = he’ 


无 论 是 哪 一 种 正则 化 方式 ， 基 本 的 思想 都 是 希望 通过 限制 权重 的 大 小 ， 使 得 模型 不 能 
任意 拟 合 训练 数据 中 的 随机 噪音 。 但 这 两 种 正则 化 的 方法 也 有 很 大 的 区 别 。 首 先 ,，Z1 正则 
化 会 让 参数 变 得 更 稀疏 ， 而 Z2 正则 化 不 会 。 所 谓 参数 变 得 更 稀疏 是 指 会 有 更 多 的 参数 变 为 
0， 这 样 可 以 达到 类 似 特征 选取 的 功能 。 之 所 以 L2 正则 化 不 会 让 参数 变 得 稀疏 的 原因 是 当 
参数 很 小 时 ， 比 如 0.001， 这 个 参数 的 平方 基本 上 就 可 以 忽略 了 ， 于 是 模型 不 会 进一步 将 这 
个 参数 调整 为 0。 其 次 ，Z1 正则 化 的 计算 公式 不 可 导 ， 而 Z2 正则 化 公式 可 导 。 因 为 在 优 
化 时 需要 计算 损失 函数 的 偏 导数 , 所 以 对 含有 Z2 正则 化 损失 函数 的 优化 要 更 加 简洁 。 优化 
带 L1 正则 化 的 损失 函数 要 更 加 复杂 ， 而 且 优 化 方法 也 有 很 多 种 。 在 实践 中 ， 也 可 以 将 L1 
正则 化 和 Z2 正则 化 同时 使 用 : 

ROW = 2 alw|+( -oa)w 
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4.2 小 节 提 到 过 TensorFlow 可 以 优化 任意 形式 的 损失 函数 ， 所 以 TensorFlow 目 然 也 可 
以 优化 带 正则 化 的 损失 函数 。 以 下 代码 给 出 了 一 个 简单 的 带 Z2 正则 化 的 损失 函数 定义 : 


w= tf.Variable'(tfsrandom normal([27yS1l Re stddev=1; ‘Seed=1),) 
y = tf.matmul (x, w) 


loss:=:tf-reducesmean (tHE SquUare (yy) 
tf.contrib.layers.12 regularizer (lambda) (w) 


在 上 面 的 程序 中 ，loss 为 定义 的 损失 函数 ， 它 由 两 个 部 分 组 成 。 第 一 个 部 分 是 4.2.1 小 
节 中 介绍 的 均 方 误差 损失 函数 ， 它 刻画 了 模型 在 训练 数据 上 的 表现 。 第 二 个 部 分 束 古 正则 
化 ， 它 防止 模型 过 度 模拟 训练 数据 中 的 随机 噪音 。lambda 参数 表示 了 正则 化 项 的 权重 ， 也 
就 是 公式 J(6)+4R(w) 中 的 4 。w 为 需要 计算 正则 化 损失 的 参数 。TensorFlow 提供 了 
tf.contrib.layers.12_regularizer 函数 ， 它 可 以 返回 一 个 函数 ， 这 个 函数 可 以 计算 一 个 给 定 参数 
的 Z2 正则 化 项 的 值 。 类 似 的 ，tf.contrib.layers.l1 regularizer 可 以 计算 Ll 正则 化 项 的 值 。 以 
下 代码 给 出 了 使 用 这 两 个 函数 的 样 例 : 
weights. =HtE constant (CEL 203 07 A204) 
with tf:Session() as sess: 
# 输出 为 (111+|-21+|-31+141)x0.5=5。 其 中 0.5 为 正则 化 项 的 权重 。 
print sess.run(tf,.contrib.layers.1l regularizer(.>) (weights)) 
# 输出 为 (1?+(-2)?+(-3)“+4?)/2x0.5=7.5。 
print sess.run(tf.contrib.layers.12 regularizer(.5) (weights)) 
在 简单 的 神经 网 络 中 ， 这 样 的 方式 就 可 以 很 好 地 计算 带 正则 化 的 损失 函数 了 。 但 当 神 
经 网 络 的 参数 增多 之 后 ， 这 样 的 方式 首先 可 能 导致 损失 函数 loss 的 定义 很 长 ， 可 谈 性 差 且 
容易 出 错 。 但 更 主要 的 是 ， 当 网 络 结构 复杂 之 后 定义 网 络 结构 的 部 分 和 计算 损失 函数 的 部 
分 可 能 不 在 同一 个 函数 中 ， 这 样 通过 变量 这 种 方式 计算 损失 函数 就 不 方便 了 。 为 了 解决 这 
个 问题 ， 可 以 使 用 TensorFlow 中 提供 的 集合 (collection)。 集 合 的 概念 在 3.1 节 中 介绍 过 ， 
它 可 以 在 一 个 计算 图 (tf.Graph〉 中 保存 一 组 实体 (比如 张 量 )。 以 下 代码 给 出 了 通过 集合 
计算 一 个 5 层 神 经 网 络 带 L2 正则 化 的 损失 函数 的 计算 方法 。 


import tensorflow as tf 


# 获取 一 层 神 经 网 络 边 上 的 权重 ， 并 将 这 个 权重 的 工 2 正则 化 损失 加 入 名 称 为 '1osses' 的 集合 中 
def get weight (shape, lambda): 

# 生成 一 个 变量 。 

Var = tf.Variable (tf.random normal (shape), dtype = tf.float32) 


QD TensorFlow 会 将 L2 的 正则 化 损失 值 除 以 2 使 得 求 导 得 到 的 结果 更 加 人 简洁。 
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# addq to_collection 函数 将 这 个 新 生成 变量 的 工 2 正则 化 损失 项 加 入 集合 。 

# 这 个 函数 的 第 一 个 参数 'losses ' 是 集合 的 名 字 ， 第 二 个 参数 是 要 加 入 这 个 集合 的 内 容 。 

titsaddaeonoolkeCEtsonn 
'losses',tf.contrib.layers.12 regularizer (lambda) (var)) 

# 返回 生成 的 变量 。 


已 EUERETST 


x = tf.placeholder(tf.float32, shape= (None, 2)) 
Y = tf.placeholder (tf.float32, shape=(None, 1)) 
batch sizes=°8 

# 定义 了 每 一 层 网 络 中 节点 的 个 数 。 

LaVversdrmenS LOon eS lO Os] 

# 神经 网 络 的 层 数 。 


n layers’ =-len(layer :dinmension) 


# 这 个 变量 维护 前 向 传播 时 最 深层 的 节点 ， 开 始 的 时 候 就 是 输入 层 。 
CUL LAYeL A 
# 当前 层 的 节点 个 数 。 


in dimension = layer dimension[0] 


# 通过 一 个 循环 来 生成 5 层 全 连接 的 神经 网 络 结构 。 

EOL sinandel( lr DeLaverSs) 
# layer dimension[i] 为 下 一 层 的 节点 个 数 。 
out dimension = layer dimension[il] 
# 生成 当前 层 中 权重 的 变量 ， 并 将 这 个 变量 的 L2 正则 化 损失 加 入 计算 图 上 的 集合 。 
weight = get weight ([in dimension, out dimension], 0.001) 
bias = tf.Variable (tf.constant (0.1, shape=[out dimension])) 
# 使 用 ReLU 激活 函数 。 
curslaver = tfanne roel matmne(cun loyer werght)s Das) 
# 进入 下 一 层 之 前 将 下 一 层 的 节点 个 数 更 新 为 当前 层 节点 个 数 。 


in dimension = layer dimension[i] 


# 在 定义 神经 网 络 前 向 传播 的 同时 已 经 将 所 有 的 L2 正则 化 损失 加 入 了 图 上 的 集合 ， 
# 这 里 只 需要 计算 刻画 模型 在 训练 数据 上 表现 的 损失 函数 。 


mSeslOSSR StieredCermean( GE Sal Our Love 


# 将 均 方 误差 损失 函数 加 入 损失 集合 。 


tfuaddst omcolliectLOon(mLOSSesr nsestoss) 


间 get _collection 返回 一 个 列表 ， 这 个 列表 是 所 有 这 个 集合 中 的 元 素 。 在 这 个 样 例 中 ， 
# 这 些 元 紊 就 是 损失 函数 的 不 同 部 分 ， 将 它们 加 起 来 就 可 以 得 到 最 终 的 损失 函数 。 


loss =tf.add n(tf.get collection(losses™)) 


从 上 面 的 代码 可 以 看 出 通过 使 用 集合 的 方法 在 网 络 结构 比较 复杂 的 情况 下 可 以 使 代码 
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的 可 读 性 更 高 。 上 面 的 代码 给 出 的 是 一 个 只 有 5 层 的 全 连接 网 络 , 在 更 加 复杂 的 网 络 结构 中 ， 
使 用 这 样 的 方式 来 计算 损失 函数 将 大 大 增强 代码 的 可 读 性 。 


4.4.3 ”滑动 平均 模型 


这 一 个 小 节 将 介绍 另外 一 个 可 以 使 模型 在 测试 数据 上 更 健壮 (robust) 的 方法 一 一 滑动 
平均 模型 。 在 采用 随机 梯度 下 降 算 法 训练 神经 网 络 时 ， 使 用 滑动 平均 模型 在 很 多 应 用 中 都 
可 以 在 一 定 程度 提高 最 终 模 型 在 测试 数据 上 的 表现 。 

在 TensorFlow 中 提供 了 tf.train.ExponentialMovingAverage 来 实现 滑动 平均 模型 。 在 初 
始 化 ExponentialMovingAverage 时 ,需要 提供 一 个 衰减 率 (decay)。 这 个 衰减 率 将 用 于 控制 
模型 更 新 的 速度 。ExponentialMovingAverage 对 每 一 个 变量 会 维护 一 个 影子 变量 (shadow 
variable)， 这 个 影子 变量 的 初始 值 就 是 相应 变量 的 初始 值 ， 而 每 次 运行 变量 更 新 时 ， 影 子 
变量 的 值 会 更 新 为 : 

shadow_variable = decay x shadow _variable + (1— decay)x variable 

其 中 shadow _variable 为 影子 变量 ，variable 为 待 更 新 的 变量 ，decay 为 衰减 率 。 从 公式 
中 可 以 看 到 ，decay 决定 了 模型 更 新 的 速度 ，decay 越 大 模型 越 趋 于 稳定 。 在 实际 应 用 中 ， 
decay 一 般 会 设 成 非常 接近 1 的 数 〈 比 如 0.999 或 0.9999)。 为 了 使 得 模型 在 训练 前 期 可 以 
更 新 得 更 快 ，ExponentialMovingAverage 还 提供 了 num_updates 参数 来 动态 设置 decay 的 大 
小 。 如 果 在 ExponentialMovingAverage 初始 化 时 提供 了 num_updates 参数 , 那么 每 次 使 用 的 
衰减 率 将 是 : 

l+num updates 
miny decay, 一 一 一 
| 10+num _ pa | 


下 面 通过 一 段 代 码 来 解释 ExponentialMovingAverage 是 如 何 被 使 用 的 。 


ijmport tensorflow :as tf 


# 定义 一 个 变量 用 于 计算 滑动 平均 ， 这 个 变量 的 初始 值 为 0。 注 意 这 里 手动 指定 了 变量 的 
# 类 型 为 tf.float32， 因 为 所 有 需要 计算 滑动 平均 的 变量 必须 是 实数 型 。 

V1 = tf.Variable(0, dtype=tf.float32) 

# 这 里 step 变量 模拟 神经 网 络 中 迭代 的 轮 数 ， 可 以 用 于 动态 控制 衰减 率 。 

step = tf.Variable(0, trainable=False) 


# 定义 一 个 滑动 平均 的 类 (class)。 初 始 化 时 给 定 了 衰减 率 〔0 .99) 和 控制 衰减 率 的 变量 step。 
ema = tf.train.ExponentialMovingAverage (0.99, step) 

# 定义 一 个 更 新 变量 滑动 平均 的 操作 。 这 里 需要 给 定 一 个 列表 ， 每 次 执行 这 个 操作 时 

# 这 个 列表 中 的 变量 都 会 被 更 新 。 


maintain averages op = ema.apply([vi]) 
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with tf.Session() as sess : 
# 初始 化 所 有 变量 。 
Init Op = tf.initializeaill Variables:() 
sess.run(init op) 


# 通过 ema .average (v1) 获取 滑动 平均 之 后 变量 的 取 值 ,在 初始 化 之 后 变量 v1 的 值 和 v1 的 
# 背 动 平均 都 为 0。 


print sess.run([vl, ema.average (v1)]) # 输出 [0.0，0.0] 


# 更 新 变量 v1 的 值 到 5。 

sess.run(tf.assign'(vi, 5)) 

# 更 新 v1 的 滑动 平均 值 。 衰 减 率 为 min{0.99, (1+step)/(10+step)= 0.1}=0.1， 
# 所 以 v1 的 滑动 平均 会 被 更 新 为 0.1x0+0 .9x5=4.5。 

sess.runl(maintain averages op) 

print sess.run([vl, ema.average (v1)]) # 输出 [5.05 4:95] 


# 更 新 step 的 值 为 10000。 
sess.run(tf.assign (step, 10000)) 
# 更 新 v1 的 值 为 10。 


sess. run(ltfsassign (vi, 10)) 

# 更 新 v1 的 滑动 平均 值 。 衰 减 率 为 min{0.99, (1+step)/(10+step) x 0.999}=0.99， 
# 所 以 v1 的 滑动 平均 会 被 更 新 为 0.99x4.5+0.01x10=4.555。 

sess.runl(maintain averages op) 

print sess.run([vil, ema.average (v1)]) 

# 输出 [10.0，4.5549998] 


# 再 次 更 新 滑动 平均 值 ， 得 到 的 新 滑动 平均 值 为 0.99x4.555+0.01x10=4.60945。 
sess.runl(maintain averages op) 

print sess.run([vl, ema.average (v1)]) 

# 输出 [10.0，4.6094499] 


上 面 的 代码 给 出 了 ExponentialMovingAverage 的 简单 样 例 ， 在 第 5 章 中 将 给 出 在 真实 
应 用 中 使 用 滑动 平均 的 样 例 。 


小 结 


本 章 详细 讲解 了 使 用 神经 网 络 解决 实际 问题 过 程 中 的 各 个 环节 。 首 先 4.1 节 介绍 了 设 
计 神 经 网 络 结构 时 的 两 个 总 体 原则 一 一 非 线性 结构 和 多 层 结构 。 这 一 节 先 说 明了 深度 学 习 
基本 上 就 是 深层 神经 网 络 的 代名词 。 然 后 通过 对 深度 学 习 定 义 中 两 个 性 质 的 详细 讲解 ， 指 
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出 了 非 线 性 结构 和 多 层 结构 是 解决 复杂 问题 的 必要 方法 。 这 一 节 通 过 具体 的 例子 讲解 了 线 
性 模型 和 浅 层 模 型 的 局 限 性 。 

然后 4.2 节 介绍 了 如 何 设计 损失 函数 。 神 经 网 络 是 一 个 优化 问题 ， 而 损失 叉 数 丈 刻 男 
了 神经 网 络 需 要 优化 的 目标 。 这 一 节 讲 解 了 分 类 问题 和 回归 问题 中 比较 常用 的 损失 函数 ， 
同时 也 介绍 了 如 何 设计 更 加 贴近 实际 问题 需求 的 损失 函数 。 在 这 一 节 中 通过 一 个 实际 样 例 
讲解 了 不 同 损 失 函 数 对 神经 网 络 参数 优化 结果 的 影 啊 。 

接着 4.3 节 介 绍 了 优化 神经 网 络 时 最 常用 的 梯度 下 降 算 法 和 反 辐 传播 算法 。 在 这 一 贡 
中 ， 主 要 讲解 了 梯度 下 降 算 法 的 基本 概念 和 主体 思想 ， 并 给 出 了 通过 梯度 下 降 算 法 优化 一 
个 简单 函数 J(x)=x” 的 样 例 。 通 过 这 个 例子 , 读者 可 以 对 神经 网 络 的 优化 过 程 有 一 个 大 概 的 、 
直观 的 了 解 。 这 一 节 还 介绍 了 随机 梯度 下 降 和 使 用 batch 的 随机 梯度 下 降 算 法 ， 并 给 出 了 
使 用 TensorFlow 优化 神经 网 络 的 计算 框架 。 

最 后 4.4 节 介 绍 了 三 个 神经 网 络 优化 过 程 中 可 能 会 遇 到 的 问题 ， 并 介绍 了 解决 这 些 问 
题 的 常用 方法 。 首 先 4.4.1 小 节 介 绍 了 通过 指数 衰减 的 方式 来 设置 学 习 率 。 通 过 这 种 方法 ， 
既 可 以 加 快 训练 初期 的 训练 速度 ， 同 时 在 训练 后 期 又 不 会 出 现 损 失 函 数 在 极 小 值 周 围 徘徊 
往返 的 情况 。 然 后 4.4.2 小 节 介 绍 了 通过 正则 化 解决 过 度 拟 合 的 问题 。 当 损失 函数 仅 取 决 于 
在 训练 数据 上 的 拟 合 程 度 时 ， 神 经 网 络 模 型 有 可 能 只 是 “记忆 ”了 所 有 的 训练 数据 ， 而 无 
法 很 好 地 对 未 知 数据 做 出 判断 。 正 则 化 通过 在 损失 函数 中 加 入 对 模型 复杂 程度 的 因素 ， 可 
以 有 效 避 免 过 拟 合 问题 。 最 后 4.4.3 小 节 介 绍 了 使 用 滑动 平均 模型 让 最 后 得 到 的 模型 在 未 知 
数据 上 更 加 健壮 。 

这 一 章 讲解 了 使 用 神经 网 络 模型 时 需要 考虑 的 主要 问题 。 从 神经 网 络 模型 结构 的 设计 、 
损失 函数 的 设计 、 神 经 网 络 的 优化 和 神经 网 络 进一步 调 优 四 个 方面 覆盖 了 设计 和 优化 神经 
网 络 过 程 中 可 能 遇 到 的 主要 问题 。 在 下 面 的 第 $ 章 中 ， 将 通过 一 个 具体 的 问题 来 验证 本 章 
中 提 到 的 神经 网 络 优化 方法 。 同 时 也 将 给 出 通过 TensorFlow 实现 神经 网 络 的 最 佳 实践 样 例 
”程序 。 
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第 4 章 介 绍 耳 训练 神经 网 络 模 型 时 需要 考虑 的 主要 问题 以 及 解决 这 些 问题 的 常用 方 
法 。 这 一 章 将 通过 一 个 实际 问题 来 验证 第 4 章 中 介绍 的 解决 方法 。 本 章 将 使 用 的 数据 集 是 
MNIST 手写 体 数 字 识 别 数 据 集 。 在 很 多 深度 学 习 教程 中 ， 这 个 数据 集 都 会 被 当 作 第 一 个 案 
例 。 在 验证 神经 网 络 优化 方法 的 同时 ， 本 章 也 会 介绍 使 用 TensorFlow 训练 神经 网 络 的 最 佳 

首先 在 5.1 节 中 将 介绍 MNIST 手写 体 数 字 识 别 数据 集 , 并 且 给 出 TensorFlow 程序 处 理 
MNIST 数 据 "。 然 后 5.2 节 将 对 比 第 4 章 中 提 到 的 神经 网 络 结构 设计 和 参数 优化 的 不 同方 法 ， 
从 实际 的 问题 中 验证 不 同 优化 方法 带 来 的 性 能 提升 。 接 着 在 5.3 和 5.4 两 节 中 将 指出 5.2 节 
中 TensorFlow 程序 实现 神经 网 络 的 不 足 之 处 , 并 介绍 TensorFlow 的 最 佳 实践 来 解决 这 些 不 
足 。 其 中 ，5.3 节 将 介绍 TensorFlow 变量 重用 的 问题 和 变量 的 命名 空间 ; 5.4 市 将 介绍 如 何 
将 一 个 神经 网 络 模型 持久 化 ， 使 得 之 后 可 以 直接 使 用 训练 好 的 模型 。 最 后 在 5.5 节 中 将 整 
合 5.3 和 5.4 节 中 介绍 的 TensorFlow 最 佳 实践 ,通过 一 个 完整 的 TensorFlow 程序 解决 MNIST 
问题 。 


5.1 MNIST 数据 处 理 


MNIST 是 一 个 非常 有 名 的 手写 体 数字 识别 数据 集 ， 在 很 多 资料 中 ， 这 个 数据 集 都 会 被 
用 作 深 度 学 习 的 入 门 样 例 。 本 节 中 将 大 致 讲解 这 个 数据 集 的 基本 情况 ， 并 介绍 TensorFlow 
对 MNIST 数据 集 做 的 封装 。TensorFlow 的 封装 让 使 用 MNIST 数据 集 变 得 更 加 方便 .MNIST 
数据 集 是 NIST 数据 集 的 一 个 子 集 ， 它 包含 了 60000 张 图 片 作 为 训练 数据 ，10000 张 图 片 作 


(D TensorFlow 提供 了 封装 好 的 MNIST 数据 集 处 理 类 , 在 这 里 将 直接 使 用 这 个 类 。 关 于 如 何 处 理 图 像 数 据 
将 在 第 7 章 中 详细 介绍 。 
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为 测试 数据 。 在 MNIST 数据 集中 的 每 一 张 图 片 都 代表 了 0~9 中 的 一 个 数字 。 图 片 的 大 小 都 
为 28x28, 且 数 字 都 会 出 现在 图 片 的 正中 间 。 图 5-1 展示 了 一 张 数字 图 片 及 和 它 对 应 的 像素 
算 阵 。 : 





WW 和 村 证 耀 闪 六 0 0 0 0 0 0 0 
"8 YO 0 Wd 0 了 
0 do 0 0 0 9 
0 0 0 0 0 0 揣 届 oo 0 0 0 0 
0 0 0 0000 如 国 0 0 0 0 0 0 
0 0 0 0 0 0 过 铅 好 0 0 0 0 0 
ch 0 0 0 0 0 606 0 本 加 0 0 0 0 0 
, 0 0 0 0 0 0 0 国富 0 0 0 0 10 
人 BE 0 0 0 0 0 
和 中 0 0 0 0 0 
0 .0 0 3 5 dd 本 ED 0 0 0 
0 0 0 0 0 0 名 三 这 0 0 0 0 
有 人 
0 0 0 0 0 0 0 0 0 0 0 0 0 0 


图 5-1 数字 图 片 及 其 像素 和 矩阵 


在 图 5-1 的 左 侧 显 示 了 一 张 数 字 1 的 图 片 , 而 右 侧 显示 了 这 个 图 片 所 对 应 的 像素 矩阵 ”。 
在 Yann LeCun 教授 的 网 站 中 (http://yann.lecun.com/exdb/mnist) 对 MNIST 数据 集 做 出 了 详 
细 的 介绍 。MNIST 数据 集 提 供 了 4 个 下 载 文件 ， 表 5-1 归纳 了 下 载 文件 中 提供 的 内 容 。 


表 5-1 MNIST 数据 下 载 地 址 和 内 容 


http://yann.lecun.com/exdb/mnist/t10k-images-idx3-ubyte.gz 测试 数据 图 片 
http://yann.lecun.com/exdb/mnist/t10k-labels-idx 1-ubyte.gz 测试 数据 答案 





虽然 这 个 数据 集 只 提供 了 训练 和 测试 数据 ， 但 是 为 了 验证 模型 训练 的 效果 ， 一 般 会 从 
训练 数据 中 划分 出 一 部 分 数据 作为 验证 (validation) 数据 。 在 5.2.2 小 节 中 将 更 加 详细 地 介 
绍 验证 数据 的 作用 。 为 了 方便 使 用 ，TensorFlow 提供 了 一 个 类 来 处 理 MNIST 数据 。 这 个 类 
会 自动 下 载 并 转化 MNIST 数据 的 格式 , 将 数据 从 原始 的 数据 包 中 解析 成 训练 和 测试 神经 网 
络 时 使 用 的 格式 。 下 面 给 出 了 使 用 这 个 函数 的 样 例 程序 。 


(D MNIST 数据 集中 图 片 的 像素 矩阵 大 小 为 28x28, 但 为 了 更 清楚 地 展示 ,图 5-1 右 侧 显示 的 为 14X14 甜 
阵 。 
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from tensorflow.examples.tutorials.mnist import input data 


# 载 入 MNIST 数据 集 ， 如 果 指 定 地 址 /path/to/MNIST_data 下 没有 已 经 下 载 好 的 数据 ， 
# 那么 TensorFlow 会 自动 从 表 5-1 给 出 的 网 址 下 载 数据 。 
mnist = input data.read data sets("/path/to/MNIST data/", one hot=True) 


#3 打 ER Training data size:” 55000。 
print "Training data size: ", mnist.train.num examples 


# 打印 Validating*data size: “5000.。 
print "Validating data size: " mnist.validation.num examples 


# IE Testing data size:: 10000; 


print "Testing ”datas SizZe: wv nmisttest .num examples 
#4.TEN pamnple ttalning dataw 10 Qe (es. Se eg ede 7 0 a 
print "Example training data: "“", mnist.train.images[0] 


# 打印 Example training data label: 
ER 
print “Example training data label: ", mnist.train.labels[0] 


从 上 面 的 代码 中 可 以 看 出 ， 通 过 input data.read data sets 函数 生成 的 类 会 自动 将 
MNIST 数据 集 划 分 为 train、validation 和 test 三 个 数据 集 ， 其 中 train 这 个 集合 内 有 55000 
张 图 片 ，validation 集合 内 有 5000 张 图 片 ， 这 两 个 集合 组 成 了 MNIST 本 身 提供 的 训练 数据 
集 。test 集合 内 有 10000 张 图 片 ， 这 些 图 片 都 来 自 于 MNIST 提供 的 测试 数据 集 。 处 理 后 的 
每 一 张 图 片 是 一 个 长 度 为 784 的 一 维 数组 ， 这 个 数组 中 的 元 素 对 应 了 图 片 像素 矩阵 中 的 每 
一 个 数字 〈28x28=784)。 因 为 神经 网 络 的 输入 是 一 个 特征 向 量 ， 所 以 在 此 把 一 张 二 维 图 像 
的 像素 矩阵 放 到 一 个 一 维 数 组 中 可 以 方便 TensorFlow 将 图 片 的 像素 矩阵 提供 给 神经 网 络 的 
输入 层 。 像 素 和 矩阵 中 元 素 的 取 值 范围 为 [0, 1]， 它 代表 了 颜色 的 深浅 。 其 中 0 表示 白色 背景 
(background )，1 表示 黑色 前 景 (foreground )。 为 了 方便 使 用 随机 梯度 下 降 ， 
input_data.read_data_sets 函数 生成 的 类 还 提供 了 mnist.train.next_batch 函数 ， 它 可 以 从 所 有 
的 训练 数据 中 读 取 一 小 部 分 作为 一 个 训练 batch。 以 下 代码 显示 了 如 何 使 用 这 个 功能 。 


batcechaesize OU 

xs, Ys = mnist.train.next batch(batch size) 
# 从 train 的 集合 中 选取 batch_size 个 训练 数据 。 

DITnt su XNAaDeu XS SlaDe 

# 输出 X shape: (100，784)。 

PrintCer pShape: YS:Shape 

# 输出 Y shape: (100，10)。 
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5.2 神经 网 络 模型 训练 及 不 同 模 型 结果 对 比 


本 节 将 利用 MNIST 数据 集 实现 并 研究 第 4 章 中 介绍 的 神经 网 络 模型 设计 及 优化 的 方 
法 。 首 先 ， 在 5.2.1 小 节 中 将 给 出 一 个 完整 的 TensorFlow 程序 来 解决 MNIST 问题 。 这 个 程 
序 整合 了 第 4 章 中 介绍 的 所 有 优化 方法 , 训练 好 的 神经 网 络 模 型 在 MNIST 测试 数据 集 上 可 
以 达到 98.4% 左 右 的 正确 率 。 然后 5.2.2 小 节 将 介绍 验证 数据 集 在 训练 神经 网 络 过 程 中 的 作 
用 。 这 一 小 节 将 通过 5.2.1 小 节 中 得 到 的 实验 数据 来 证 明 , 神经 网 络 在 验证 数据 集 上 的 表现 
可 以 近似 地 作为 评价 不 同 神 经 网 络 模型 的 标准 或 者 决定 迭代 轮 数 的 依据 。 最 后 5.2.3 小 节 将 
通过 MNIST 数据 集 验 证 第 4 章 中 介绍 的 每 一 个 优化 方法 。 通 过 在 MNIST 数据 集 上 的 实验 
可 以 看 到 ， 这 些 优化 方法 都 可 以 或 多 或 少 地 提高 神经 网 络 的 分 类 正确 率 。 


5.2.1 TensorFlow 训练 神经 网 络 


这 一 小 将 给 出 一 个 完整 的 TensorFlow 程序 来 解决 MNIST 手写 体 数字 识别 问题 。 这 
一 小 市 中 给 出 的 程序 实现 了 第 4 章 中 介绍 的 神经 网 络 结构 设计 和 训练 优化 的 所 有 方法 。 在 
给 出 具体 的 代码 之 前 ， 先 回顾 一 下 第 4 章 中 提 到 的 主要 概念 。 在 神经 网 络 的 结构 上 ， 深 度 
学 习 一 方面 需要 使 用 激活 函数 实现 神经 网 络 模型 的 去 线性 化 ， 另 一 方面 需要 使 用 一 个 或 多 
个 隐藏 层 使 得 神经 网 络 的 结构 更 深 ， 以 解决 复杂 问题 。 在 训练 神经 网 络 时 ， 第 4 章 介绍 了 
使 用 带 指 数 衰 减 的 学 习 率 设置 、 使 用 正则 化 来 避免 过 度 拟 合 ， 以 及 使 用 滑动 平均 模型 来 使 
得 最 终 模 型 更 加 健壮 。 以 下 代码 给 出 了 一 个 在 MNIST 数据 集 上 实现 这 些 功能 的 完整 的 
TensorFlow 程序 。 


import tensorflow as tf 
from tensorflow.examples.tutorials.mnist import input data 


# MNIST 数据 集 相关 的 常数 。 
INPUT NODE = 784 # 输入 层 的 节点 数 。 对 于 MNIST 数据 集 , 这 个 就 等 于 图 片 的 像素 。 


OUTPUT NODE = 10 # 输出 层 的 节点 数 。 这 个 等 于 类 别 的 数目 。 因 为 在 MNIST 数据 集中 


# 需要 区 分 的 是 0~9 这 10 个 数字 ,所 以 这 里 输出 层 的 节点 数 为 10。 
# 配置 神经 网 络 的 参数 。 


LAYER1 NODE = 500 # 隐藏 层 节点 数 。 这 里 使 用 只 有 一 个 隐藏 层 的 网 络 结构 作为 样 例 。 

] # 这 个 隐藏 民有 500 个 节点 。 

BATCH SIZE = 100 # 一 个 训练 batch 中 的 训练 数据 个 数 。 数 字 越 小 时 ， 训 练 过 程 越 接近 
# 随机 梯度 下 降 ; 数字 越 大 时 ， 训 练 越 接近 梯度 下 降 。 

LEARNING RATE BASE = 0.8 # 基础 的 学 习 率 。 

LEARNING RATE DECAY = 0.99 # 学 习 率 的 衰减 率 。 
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REGULARIZATION RATE = 0.0001 # 描述 模型 复杂 度 的 正则 化 项 在 损失 函数 中 的 系数 。 
TRAINING STEPS = 30000 # 训练 轮 数 。 
MOVING AVERAGE DECAY = 0.99 # 滑动 平均 衰减 率 。 


# 一 个 辅助 函数 ， 给 定神 经 网 络 的 输入 和 所 有 参数 ， 计 算 神经 网 络 的 前 向 传播 结果 。 在 这 里 
# 定义 了 一 个 使 用 ReLU 激活 函数 的 三 层 全 连接 神经 网 络 。 通 过 加 入 隐藏 层 实 现 了 多 层 网 络 结构 ， 
# 通过 ReLU 激活 函数 实现 了 去 线性 化 。 在 这 个 函数 中 也 文 持 传 入 用 于 计算 参数 平均 值 的 类 ， 
# 这 样 方便 在 测试 时 使 用 滑动 平均 模型 。 
def inference(input tensor, avg class, weightsl, biasesl]l, 
weights2, biases2): 
# 当 没 有 提供 滑动 平均 类 时 ， 直 接 使 用 参数 当前 的 取 值 。 
if avg Classs==9None: 
# 计算 隐藏 层 的 前 加 传播 结果 ， 这 里 使 用 了 ReLU 激活 函数 。 


layerl = tf.nn.relu(tf.matmul (input tensor, welLghts1) + biasesl) 


# 计算 输出 层 的 前 向 传播 结果 。 因 为 在 计算 损失 函数 时 会 一 并 计算 softmax 函数 ， 

# 所 以 这 里 不 需要 加 入 激活 函数 。 而 且 不 加 入 softmax 不 会 影响 预测 结果 。 因 为 预测 时 
# 使 用 的 是 不 同类 别 对 应 节点 输出 值 的 相对 大 小 ， 有 没有 softmax 层 对 最 后 分 类 结果 的 
# 计算 没有 影响 。 于 是 在 计算 整个 神经 网 络 的 前 向 传播 时 可 以 不 加 入 最 后 的 softmax 层 。 


return tf.matmul (layerl, weights2) + biases2 


else: 

# 首先 使 用 avg class.average 函数 来 计算 得 出 变量 的 滑动 平均 值 ， 

# 然后 再 计算 相应 的 神经 网 络 前 问 传 播 结 果 。 

Jayerl1 = tf.nn.relul( 
tf.matmul (input tensor, avg class.average (weights1)) + 
avg class.average (biases1l)) 

return tf.matmul (layerl, avg class.average (weights2)) + 

avg class. average (biases2) 


# 训练 模型 的 过 程 。 : 
def train (mnist): 
x = tf.placeholder (tf.float32, [None, INPUT NODE], name='x-input') 
Y = tf.placeholder (tf.float32, [None, OUTPUT NODE], name="'y-input') 


# 生成 隐藏 层 的 参数 。 
welights1l = 七 E.Variable 

tf.truncated normal ([INPUT_NODE， LAYER]1 NODE], stddev=0.1)) 
biasesl = tf.Variable(tf.constant (0.1, Shape=[LAYER1L NODE])) 
# 生成 输出 层 的 参数 。 
weights2 = tf.Variabljel 

tf.truncated normal ([LAYER]1 NODE, OUTPUT NODE], stddev=0.1)) 
biases2 = tf.Variable (tf.constant(0.1, shape=[OUTPUT NODE])) 


# 计算 在 当前 参数 下 神经 网 络 前 向 传播 的 结果 。 这 里 给 出 的 用 于 计算 滑动 平均 的 类 为 None， 
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# 所 以 函数 不 会 使 用 参数 的 滑动 平均 值 。 


y = inference(x, None, weightsl, biasesl, weights2, biases2) 


# 定义 存储 训练 轮 数 的 变量 。 这 个 变量 不 需要 计算 滑动 平均 值 ， 所 以 这 里 指定 这 个 变量 为 
# 不 可 训练 的 变量 (trainable=Fasle)。 在 使 用 TensorFlow 训练 神经 网 络 时 ， 

# 一 般 会 将 代表 训练 轮 数 的 变量 指定 为 不 可 训练 的 参数 。 

global step = tf.Variable(0, trainable=False) 


# 给 定 滑 动 平均 衰减 率 和 训练 轮 数 的 变量 ， 初 始 化 滑动 平均 类 。 在 第 4 章 中 介绍 过 给 
# 定 训 练 轮 数 的 变量 可 以 加 快 训练 早期 变量 的 更 新 速度 。 
variable averages = tf.train.ExponentialMovingAveragel( 

MOVING AVERAGE DECAY, global step) 


# 在 所 有 代表 神经 网 络 参数 的 变量 上 使 用 滑动 平均 。 其 他 辅助 变量 (比如 global step) 就 
# 不 需要 了 。 tf.trainable variables 返回 的 就 是 图 上 集合 
# GraphKeys .TRAINABLE VARIABLES 中 的 元 素 。 这 个 集合 的 元 素 就 是 所 有 没有 指定 
# trainable=False 的 参数 。 
variables averages op = Variable avVerages .applLY( 
tf .trainable variables ()) 


# 计算 使 用 了 滑动 平均 之 后 的 前 向 传播 结果 。 第 4 章 中 介绍 过 滑动 平均 不 会 改变 变量 本 身 的 
# 取 值 ， 而 是 会 维护 一 个 影子 变量 来 记录 其 滑动 平均 值 。 所 以 当 需 要 使 用 这 个 滑动 平均 值 时 ， 
# 需要 明确 调用 average 函数 。 
average y = inference'l 

x, Variable averages, weightsl, biasesl, weights2, biases2) 


计算 交叉 业 作 为 刻画 预测 值 和 真实 值 之 间 差 距 的 损失 函数 。 这 里 使 用 了 TensorFlow 中 提 
供 的 sparse softmax cross entropy with logits 函数 来 计算 交叉 焙 。 当 分 类 
问题 只 有 一 个 正确 答案 时 ， 可 以 使 用 这 个 函数 来 加 速 交 叉 炉 的 计算 。MNIST 问题 的 图 片 中 

只 包含 了 0~9 中 的 一 个 数字 ， 所 以 可 以 使 用 这 个 函数 来 计算 交 又 炉 损 失 。 这 个 函数 的 第 一 个 
# 参数 是 神经 网 络 不 包括 softmax 层 的 前 向 传播 结果 ， 第 二 个 是 训练 数据 的 正确 答案 。 因 为 
# 标准 答案 是 一 个 长 度 为 10 的 一 维 数 组 , 而 该 函数 需要 提供 的 是 一 个 正确 答案 的 数字 ， 所 以 需 
# 要 使 用 tf .argmax 函数 来 得 到 正确 答案 对 应 的 类 别 编号 。 
crosssentropy atE er J softmax cross -sa ToRY with Jogilits ( 

Y tf.argmax(y ， 

# 计算 在 当前 batch 所 有 样 例 的 交 又 箭 平均 值 。 


cross entropy -mean = 一 七 frzeducesmean(erossentEoPY) 


汀 间 间 间 


# 计算 L2 正则 化 损失 函数 。 

regularizer = tf.contrib.layers.12 regularizer (REGULARIZATION RATE) 
# 计算 模型 的 正则 化 损失 。 一 般 只 计算 神经 网 络 边 上 权重 的 正则 化 损失 ， 而 不 使 用 偏 置 项 。 
regularization = regularizer(lweightsl1) + regularizer (weights2) 

# 总 损失 等 于 交叉 炉 损 失 和 正则 化 损失 的 和 。 


loss.= cross entropy. mean + regularaztion 


# 设置 指数 衰减 的 学 习 率 。 
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learning rate = tf.train.exponential decayl 
LEARNING RATE BASE, # 基础 的 学 习 率 ， 随 着 迭代 的 进行 ， 更 新 变量 时 使 用 的 
# 学 习 率 在 这 个 基础 上 递减 。 


global step, # 当前 迭代 的 轮 数 

mnist.train.num examples / BATCH SIZE, # 过 完 所 有 的 训练 数据 需要 的 迭 
# 代 次 数 。 

LEARNING RATE DECAY) # 学 习 率 衰减 速度 


# 使 用 tf.train.GradientDescentOptimizer 优化 算法 来 优化 损失 函数 。 注 意 这 里 损失 函数 

# 包含 了 交叉 燃 损 失 和 工 2 正则 化 损失 。 

train step=tf.train.GradientDescentOptimizer (learning rate)\ 
.minimize(loss, global step=global step,) 


# 在 训练 神经 网 络 模型 时 ， 每 过 一 遍 数 据 既 需要 通过 反 同 传播 来 更 新 神经 网 络 中 的 参数 ， 

# 又 要 更 新 每 一 个 参数 的 滑动 平均 值 。 为 了 一 次 完成 多 个 操作 ，TensorFlow 提供 了 

# tf.control dependencies 和 tf.group 两 种 机 制 。 下 面 两 行程 序 和 

# train op = tf.group(train step, variables _ averages_op) 是 等 价 的 。 

with tf.control dependencies ([train’ step, variables averages op]): 
train op = tf.no op ‘(name='tralin') 


# 检验 使 用 了 滑动 平均 模型 的 神经 网 络 前 问 传 播 结果 是 否 正 确 。tf.argmax (average y, 1) 

# 计算 每 一 个 样 例 的 预测 答案 。 其 中 average y 是 一 个 batch size * 10 的 二 维 数组 ， 每 一 行 
# 表示 一 个 样 例 的 前 向 传播 结果 。tf.argmax 的 第 二 个 参数 “1” 表 示 选 取 最 大 值 的 操作 仅 在 第 一 
# 个 维度 中 进行 ， 也 就 是 说 ， 只 在 每 一 行 选取 最 大 值 对 应 的 下 标 。 于 是 得 到 的 结果 是 一 个 长 度 为 

# batch 的 一 维 数组 ， 这 个 一 维 数组 中 的 值 就 表示 了 每 一 个 样 例 对 应 的 数字 识别 结果 。tf .equal 
# 判断 两 个 张 量 的 每 一 维 是 否 相等 ， 如 果 相 等 返回 True， 否 则 返回 False。 

Correct prediction = tf.equal (tf.argmax (average y, 1), tf.argmax(y ,1)) 
# 这 个 运算 首先 将 一 个 布尔 型 的 数值 转换 为 实数 型 ， 然 后 计算 平均 值 。 这 个 平均 值 就 是 模型 在 这 

# 一 组 数据 上 的 正确 率 。 


accuracy = tf.reduce meanl(tf.cast (correct prediction, tf.fioat32)) 


# 初始 化 会 话 并 开始 训练 过 程 。 、 
with tf.Session() :as sess: 
tf.ijnitialize. all variables() run() : 
# 准备 验证 数据 。 一 般 在 神经 网 络 的 训练 过 程 中 会 通过 验证 数据 来 大 致 判断 停止 的 
# 条 件 和 评判 训练 的 效果 。 | 
validate feed = {x: mnist.validation.images, 
EN mnist.validation. labels)} 


# 准备 测试 数据 。 在 真实 的 应 用 中 ， 这 部 分 数据 在 训练 时 是 不 可 见 的 ， 这 个 数据 只 是 作为 模 
# 型 优 劣 的 最 后 评价 标准 。 


test feed = {x: mist.test.images, y : mnist.test.}labels} 


# 友 代 地 训练 神经 网 络 。 
for i in range (TRAINING STEPS): 
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# 每 1000 轮 输 出 一 次 在 验证 数据 集 上 的 测试 结果 。 

if i % 1000 == 0: 

# 计算 滑动 平均 模型 在 验证 数据 上 的 结果 。 因 为 MNIST 数据 集 比 较 小 ， 所 以 一 次 

# 可 以 处 理 所 有 的 验证 数据 。 为 了 计算 方便 ， 本 样 例 程序 没有 将 验证 数据 划分 为 更 

# 小 的 batch。 当 神经 网 络 模型 比较 复杂 或 者 验证 数据 比较 大 时 ， 太 大 的 batch 

# 会 导致 计算 时 间 过 长 甚至 发 生 内 存 溢出 的 错误 。 
validate acc = sess.run(accuracy, feed dict=validate feed) 
print ("After %d training step(s), validation accuracy " 

"USinNng average model is %g ot (yy Vvallidate ace),) 


# 产生 这 一 轮 使 用 的 一 个 batch 的 训练 数据 ， 并 运行 训练 过 程 。 
XS, Ys = mnist.train next batch(BATCH STZE) 
Sessarun(trarn op ESeQ dict= {xX" TXS7 VY Ys}) 


# 在 训练 结束 之 后 ， 在 测试 数据 上 检测 和 神经 网 络 模 型 的 最 终 正确 率 。 

Lesteaacecs = SSSsSrnn (aCCUrac Vo Leec LGt = Ces Eeec) 

print ("After %d training step(s), test accuracy using average " 
"moOdels LS or -5 (TRAENINGSSTEPSyStEeCSt eace)y 


# 主 程序 入 口 。 

def main (argv=None): 
# 声明 处 理 MNIST 数据 集 的 类 ， 这 个 类 在 初始 化 时 会 目 动 下 载 数据 。 
mnist = input data.read data sets("/tmp/data", one hot=True) 
train (mnist) 


# TensorFlow 提供 的 一 个 主 程序 入 口 ，tf.app.run 会 调用 上 面 定 义 的 main 函数 。 
1 TAN Tl Ls 
ti uaDDeanl(y 


运行 上 面 的 程序 ， 将 得 到 类 似 下 面 的 输出 结果 ”: 


Extracting /tmp/data/train-images-idx3-ubyte.gz 

Extracting /tmp/data/train-labels-idxl-ubyte.gz 

Extracting /tmp/data/tl10k-images-idx3-ubyte.gz 

Extracting /tmp/data/t1l0k-labels-idxl-ubyte.gz | 

After 0 training step(s), validation accuracy on average model is 0.105 
After 1000 training step(s), validation accuracy using average model is 0.9774 
After 2000 training step(s), validation accuracy using average model is0.9816 
After 3000 training step(s), validation accuracy using average model is 0.9834 
After 4000 training step(s), validation accuracy using average model is 0.9832 


After 27000 training step(s), validationaccuracy using average modQdel is 0.984 


(D 因为 神经 网 络 模型 训练 过 程 中 的 随机 因素 ， 读 者 不 会 得 到 一 模 一 样 的 结果 。 
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After 28000 training step S validation accuracy using average model is 0.985 


After 29000 training step 


(s), 

(s), 

After 29999 training step(s), validation accuracy using average model ijs0.985 
(s), 


validation accuracy using average model 1s 0.985 


After 30000 training step(s), test accuracy on average model is 0.984 


从 上 面 的 结果 可 以 看 出 ， 在 训练 初期 ， 随 看 训练 的 进行 ， 模 型 在 验证 数据 集 上 的 表现 
越 来 越 好 。 从 第 4000 轮 开始 ， 模 型 在 验证 数据 集 上 的 表现 开始 流动， 这 说 明 模 型 已 经 接近 
极 小 值 了 ， 所 以 迭代 也 就 可 以 结束 了 。 下 面 的 5.2.2 小 市 将 详细 介绍 验证 数据 集 的 作用 。 


5.2.2 ”使 用 验证 数据 集 判 断 模型 效果 


在 5.2.1 小 节 给 出 了 使 用 神经 网 络 解决 MNIST 问题 的 完整 程序 。 在 这 个 程序 的 开始 设 
置 了 初始 学 习 率 、 学 习 率 衰 减 率 、 隐 藏 层 节 氮 数量 、 友 代 轮 数 等 7 种 不 同 的 参数 。 那 么 如 
何 设置 这 些 参数 的 取 值 呢 ? 在 大 部 分 情况 下 ， 配 置 神 经 网 络 的 这 些 参数 都 是 需要 通过 实验 
来 调整 的 。 虽 然 一 个 神经 网 络 模型 的 效果 最 终 是 通过 测试 数据 来 评判 的 ， 但 是 我 们 不 能 
接 通过 模型 在 测试 数据 上 的 效果 来 选择 参数 。 使 用 测试 数据 来 选取 参数 可 能 会 导致 神经 网 
络 模 型 过 度 拟 合 测试 数据 ， 从 而 失去 对 未 知 数据 的 预 判 能 力 。 因 为 一 个 神经 网 络 模型 的 最 
终 目标 是 对 未 知 数据 提供 判断 ， 所 以 为 了 估计 模型 在 未 知 数据 上 的 效 末 ， 需 要 保证 测试 数 
据 在 训练 过 程 中 是 不 可 见 的 。 只 有 这 样 才能 保证 通过 测试 数据 评估 出 来 的 效 采 和 在 真实 应 
用 场景 下 模型 对 未 知 数 据 预 判 的 效果 是 接近 的 。 于 是 ， 为 了 评测 神经 网 络 模型 在 不 同 参 数 
下 的 效果 ， 一 般 会 从 训练 数据 中 抽取 一 部 分 作为 验证 数据 。 使 用 验证 数据 就 可 以 评判 不 同 
参数 取 值 下 模型 的 表现 。 除 了 使 用 验证 数据 集 ， 还 可 以 采用 交叉 验证 《〈cross validation) 的 
方式 来 验证 模型 效果 。 但 因为 神经 网 络 训练 时 间 本 身 就 比较 长 ， 采 用 cross validation 会 花 
费 大 量 时 间 。 所 以 在 海量 数据 的 情况 下 ， 一 般 会 更 多 地 采用 验证 数据 集 的 形式 来 评测 模型 
的 效果 。 
在 本 小 节 中 ， 为 了 说 明 验 证 数据 在 一 定 程度 上 可 以 作为 模型 效果 的 评判 标准 ， 我 们 将 

对 比 在 不 同 迭 代 轮 数 的 情况 下 ， 模 型 在 验证 数据 和 测试 数据 上 的 正确 率 。 为 了 同时 得 到 同 
一 个 模型 在 验证 数据 和 测试 数据 上 的 正确 率 , 可 以 在 每 1000 轮 的 输出 中 加 入 在 测试 数据 集 
上 的 正确 率 。 在 5.2.1 小 节 给 出 的 代码 中 加 入 以 下 代码 ， 就 可 以 得 到 每 1000 轮 达 代 后 ， 使 
用 了 滑动 平均 的 模型 在 验证 数据 和 测试 数据 上 的 正确 率 。 

# 计算 滑动 平均 模型 在 测试 数据 和 验证 数据 上 的 正确 率 。 

validate acc= sess.run(aceuracy; feed“ dict=validateée feed) 

CestoaCons Seso run(accuracyr teed drct test:feed) 

# 输出 正确 率 信息 。 

print ("After %d training step(s), validation accuracy using average 了 

"model is %g, test accuracy using average model 1S %g" % 
(Iy8valLdateracer test Sace)d 
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5-2 给 出 了 通过 上 面 代码 得 到 的 每 1000 轮滑 动 平 均 模 型 在 不 同 数据 集 上 的 正确 率 曲 
线 。 图 5-2 中 灰色 的 曲线 表示 随 着 迭代 轮 数 的 增加 ， 模 型 在 验证 数据 上 的 正确 率 ， 而 黑色 
的 曲线 表示 了 在 测试 数据 上 的 正确 率 。 从 图 5-2 中 可 以 看 出 ， 虽 然 这 两 条 曲线 不 会 完全 重 
合 ， 但 是 这 两 条 曲线 的 趋势 基本 一 样 ， 而 且 他 们 的 相关 系数 (correlation coefficient) 大 于 
0.9999。 这 意味 着 在 MNIST 问题 上 上， 完全 可 以 通过 模型 在 验证 数据 上 的 表现 来 判断 一 个 模 
型 的 优 劣 。 
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近代 轮 数 
图 5-2 ”不同 迭代 轮 数 下 滑动 平均 模型 在 验证 数据 集 和 测试 数据 集 上 的 正确 率 





当然 ， 以 上 结论 是 针对 MNIST 这 个 数据 集 的 ,对 于 其 他 问题 ， 还 需要 有 具体 问题 具体 分 
析 。 不 同 问题 的 数据 分 布 不 一 样 ， 如 果 验 证 数据 分 布 不 能 很 好 地 代表 测试 数据 分 布 ， 那 么 
模型 在 这 两 个 数据 集 上 的 表现 就 有 可 能 不 一 样 。 所 以 , 验证 数据 的 选取 方法 是 非常 重要 的 ， 
一 般 来 说 选取 的 验证 数据 分 布 越 接近 测试 数据 分 布 ， 模 型 在 验证 数据 上 的 表现 越 可 以 体现 
模型 在 测试 数据 上 的 表现 。 但 通过 本 小 而 中 介绍 的 实验 ， 至 少 可 以 说 明 通 过 神经 网 络 在 验 
证 数据 上 的 效果 来 选取 模型 的 参数 是 一 个 可 行 的 方案 。 


5.2.3 ”不同 模型 效果 比较 


本 小 节 将 通过 MNIST 数 据 集 来 比较 第 4 章 中 提 到 的 不 同 优化 方法 对 神经 网 络 模型 正确 
率 的 影响 。 本 小 节 将 使 用 神经 网 络 模型 在 MNIST 测试 数据 集 上 的 正确 率 作为 评价 不 同 优化 
方法 的 标准 。 在 本 小 节 中 一 个 模型 在 MNIST 测试 数据 集 上 的 正确 率 将 简称 为 “正确 率 ”。 
在 第 4 章 中 提 到 了 设计 神经 网 络 时 的 5 种 优化 方法 。 在 神经 网 络 结构 的 设计 上 ， 需 要 使 用 
激活 函数 和 多 层 隐 藏 层 。 在 神经 网 络 优化 时 ， 可 以 使 用 指数 衰减 的 学 习 率 、 加 入 正则 化 的 
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损失 函数 以 及 滑动 平均 模型 。 在 图 5-3 中 ,给 出 了 在 相同 神经 网 络 参数 下 ”， 使 用 不 同 优化 
方法 ， 经 过 30000 轮训 练 迭 代 后 ， 得 到 的 最 终 模 型 的 正确 率 ”。 图 5-3 给 出 的 结果 中 包含 了 
使 用 所 有 优化 方法 训练 得 到 的 模型 和 不 用 其 中 茶 一 项 优化 方法 训练 得 到 的 模型 。 通 过 这 种 
方式 ， 可 以 有 效 验 证 每 一 项 优化 方法 的 效果 。 


， 0.99 
2 0.3833 0.9831 
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不 用 滑动 平均 不 用 正则 化 。 不 同 指数 衰减 学 习 率 。 不同 赂 茂 层 不 用 激活 函数 


DR OO OO OOO TO OO OOO POE OOOO OEE OO PEATE OTE OO OO OO OO OOOOO OOO PO OEPO OEP OOOO OO OT POE EEO te ee 


图 5-3 不同 模 型 的 正确 率 


从 图 5-3 中 可 以 很 明显 地 看 出 , 调整 神经 网 络 的 结构 对 最 终 的 正确 率 有 非常 大 的 影响 。 
没有 隐藏 层 或 者 没有 激活 函数 时 ， 模 型 的 正确 率 只 有 大 约 92.6%， 这 个 数字 要 远 远 小 于 使 
用 了 隐藏 层 和 激活 函数 时 可 以 达到 的 大 约 98.4% 的 正确 率 。 这 说 明神 经 网 络 的 结构 对 最 终 
模型 的 效果 有 本 质 性 的 影响 。 第 6 章 将 会 介绍 一 种 更 加 特殊 的 神经 网 络 结构 一 一 卷 积 神经 
网 络 。 卷 积 神经 网 络 可 以 更 加 有 效 地 处 理 图 像 信息 。 通 过 卷 积 神经 网 络 ， 可 以 进一步 将 正 
确 率 提高 到 大 约 99.5%。 

从 图 5-3 上 的 数字 中 可 发 现 使 用 滑动 平均 模型 、 指 数 衰 减 的 学 习 率 和 使 用 正则 化 融 来 
的 正确 率 的 提升 并 不 是 特别 明显 。 其 中 使 用 了 所 有 优化 算法 的 模型 和 不 使 用 滑动 平均 的 模 
型 以 及 不 使 用 指数 衰减 的 学 习 率 的 模型 都 可 以 达到 大 约 98.4% 的 正确 率 。 这 是 因为 滑动 平 
均 模 型 和 指数 衰减 的 学 习 率 在 一 定 程度 上 都 是 限制 神经 网 络 中 参数 更 新 的 速度 ， 然 而 在 
MNIST 数据 上 ， 因 为 模型 收敛 的 速度 很 快 ， 所 以 这 两 种 优化 对 最 终 模 型 的 影响 不 大 。 从 
图 5-2 中 可 以 看 到 ， 当 模型 迭代 到 4000 轮 时 正确 率 就 已 经 接近 最 终 的 正确 率 了 。 而 在 迭代 





@ 在 本 小 节 中 ,不 同 神经 网 络 模型 使 用 的 参数 和 5.2.1 小 节 给 出 的 代码 中 的 参数 一 致 。 唯 一 的 例外 是 不 使 
用 激活 函数 的 模型 使 用 的 学 习 率 为 0.05。 
@ 因为 神经 网 络 的 训练 过 程 存在 随机 因素 ， 本 小 节 中 列 出 的 所 有 结果 都 是 10 次 运行 的 平均 值 。 
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的 早期 , 是 否 使 用 滑动 平均 模型 或 者 指数 衰减 的 学 习 率 对 训练 结 采 的 影响 相对 较 小 。 图 5-4 
显示 了 不 同和 迭代 轮 数 时 ， 使 用 了 所 有 优化 方法 的 模型 的 正确 率 与 平均 绝对 梯度 “的 变化 趋 
势 。 图 5-5 显示 了 不 同 迭 代 轮 数 时 ， 正 确 率 与 衰减 之 后 的 学 习 率 的 变化 趋势 。 
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图 5-4 ”使 用 了 所 有 优化 方法 的 模型 正确 率 与 平均 绝 度 梯度 在 不 同 达 代 轮 数 时 的 变化 趋势 
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从 代 轮 数 
图 5-5 使 用 了 所 有 优化 方法 的 模型 的 正确 率 与 学 习 率 在 不 同和 迭代 轮 数 时 的 变化 趋势 


从 图 5-4 中 可 以 看 到 ， 前 4000 轮 和 欠 代 对 模型 的 改变 是 最 大 的 。 在 4000 轮 之 后 ， 因 为 
梯度 本 身 比较 小 ， 所 以 参数 的 改变 也 就 比较 缓慢 了 。 于 是 滑动 平均 模型 或 者 指数 衰减 的 学 
@ 平均 绝对 梯度 是 所 有 参数 梯度 绝对 值 的 平均 数 。 

104 | 


ww albbt.com DODODDDDD 





第 5 章 MNIST 数字 识别 问题 


习 率 的 作用 也 就 没有 那么 突出 了 。 从 图 5-5 中 可 以 看 到 ， 学 习 率 曲线 呈现 出 阶梯 状 豪 减 ， 
在 前 4000 轮 时 ， 衰 减 之 后 的 学 习 率 和 最 初 的 学 习 率 兰 距 并 不 大 。 那 么 ， 这 是 否 能 说 明 这 些 
优化 方法 作用 不 大 呢 ? 管 案 是 否定 的 。 当 问题 更 加 复杂 时 ， 迹 代 不 会 这 么 快 接近 收敛 ， 这 
时 滑动 平均 模型 和 指数 衰减 的 学 习 率 可 以 发 挥 更 大 的 作用 。 比 如 在 Cifar-10 图 像 分 类 数据 
集 上 ， 使 用 滑动 平均 模型 可 以 将 错误 率 降 低 11%， 而 使 用 指数 衰减 的 学 习 率 可 以 将 错误 率 
降低 7%。 

相 比 滑动 平均 模型 和 指数 衰减 学 习 率 ， 使 用 加 入 正则 化 的 损失 函数 给 模型 效果 带 来 的 
提升 要 相对 显著 。 使 用 了 正则 化 损失 函数 的 神经 网 络 模型 可 以 降低 大 约 6% 的 错误 率 《〈 从 
1.69% 降 低 到 1.59%)。 图 5-6 和 图 5-7 显示 了 正则 化 给 模型 优化 过 程 带 来 的 影响 。 图 5-6 和 
图 5-7 对 比 了 两 个 使 用 了 不 同 损 失 阔 数 的 神经 网 络 模 型 。 一 个 模型 只 最 小 化 交叉 燃 损 失 ， 
以 下 代码 给 出 了 只 优化 交叉 炉 模 型 的 模型 优化 函数 的 声明 语句 。 

train step = tf.train.GradientDescentOptimizer (learning rate)\ 

.minimize(cross entropy mean, global step=global step) 


男 一 个 模型 优化 的 是 交叉 炉 和 Z2 正则 化 损失 的 和 。 以 下 代码 给 出 了 这 个 模型 优化 函数 
的 声明 语句 。 
loss = cross entropy mean + regularaztion 


train step = tf.train.GradientDescentOptimizer (learning rate)\ 
.minimize(loss, global step=global step) 


在 图 5-6 中 灰色 和 黑色 的 实 线 给 出 了 两 个 模型 正确 率 的 变化 趋势 ， 虚 线 给 出 了 在 当前 
训练 batch 上 的 交叉 燃 损 失 。 
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一 一 一 优化 交叉 录 模 型 的 正确 率 优化 总 损失 模型 正确 率 ~ -~ ~ - 优化 交 义 燃 模 型 的 交叉 粮 ~ - 一 - 优化 总 损失 模型 的 交叉 灶 





图 5-6 不 同 模型 在 不 同 迭 代 轮 数 时 交叉 烂 和 正确 率 的 关系 
从 图 5-6 中 可 以 看 出 ， 只 优化 交叉 炉 的 模型 在 训练 数据 上 的 交 又 炉 损 失 灰 色 虚 线 ) 
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要 比 优化 总 损失 的 模型 更 小 《黑色 虚线 )。 然 而 在 测试 数据 上 ， 优 化 总 损失 的 模型 《黑色 实 
线 ) 却 要 好 于 只 优化 交叉 粒 的 模型 (灰色 实 线 )。 这 个 原因 就 是 第 4 章 中 介绍 的 过 拟 合 问题 。 
只 优化 交叉 烂 的 模型 可 以 更 好 地 拟 合 训练 数据 (交叉 炉 损 失 更 小 ), 但 是 却 不 能 很 好 地 挖掘 
数据 中 潜在 的 规律 来 判断 未 知 的 测试 数据 ， 所 以 在 测试 数据 上 的 正确 率 低 。 

5-7 显示 了 不 同 模型 的 损失 函数 的 变化 趋势 。 图 5-7 的 左 侧 显 示 了 只 优化 交叉 炉 的 
模型 损失 函数 的 变化 规律 。 可 以 看 到 随 着 和 迭代 的 进行 ， 正 则 化 损失 是 在 不 断 加 大 的 。 因 为 
MNIST 问题 相对 比价 傈 单 ， 友 代 后 期 的 梯度 很 小 〈 参 考 图 5-4)， 所 以 正则 化 损失 的 增长 也 
不 快 。 如 有 果 问 题 更 加 复杂 ， 磷 代 后 期 的 梯度 更 大 ， 就 会 发 现 总 损失 (交叉 烂 损 失 加 上 正则 
化 损失 ) 会 呈现 出 一 个 TU 字 型 。 在 图 5-7 的 右 侧 ， 显 示 了 优化 总 损失 的 模型 损失 函数 的 变 
化 规律 。 从 图 5-7 中 可 以 看 出 ， 这 个 模型 的 正则 化 损失 部 分 也 可 以 随 着 迭代 的 进行 越 来 越 
小 ， 从 而 使 得 整体 的 损失 呈现 一 个 逐步 递减 的 趋势 





使 用 正则 化 模型 






不 使 用 正则 化 模型 


-一 正则 化 损失 总 损失 
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et 


图 5-7 ”正则 化 损失 值 和 总 损失 的 变化 趋势 


总 的 来 说 , 通过 MNIST 数据 集 有 效 地 验证 了 激活 函数 、 隐 藏 层 可 以 给 模型 的 效果 带 来 
质 的 飞跃 。 由 于 MNIST 问题 本 身 相 对 简单 ,滑动 平均 模型 、 指 数 衰减 的 学 习 率 和 正则 化 损 
失 对 最 终 正 确 率 的 提升 效果 不 明显 。 但 通过 进一步 分 析 实 验 的 结果 ， 可 以 得 出 这 些 优化 方 
法 确实 可 以 解决 第 4 章 中 提 到 的 神经 网 络 优化 过 程 中 的 问题 。 当 需要 解决 的 问题 和 使 用 到 
的 神经 网 络 模 型 更 加 复杂 时 ， 这 些 优化 方法 将 更 有 可 能 对 训练 效果 产生 更 大 的 影响 。 


9i3 


Kk 


量 党 理 


在 5.2.1 小 节 中 将 计算 神经 网 络 前 向 传播 结果 的 过 程 抽 象 成 了 一 个 函数 。 通 过 这 种 方式 
在 训练 和 测试 的 过 程 中 可 以 统一 调用 同一 个 函数 来 得 模型 的 前 向 传 播 结 果 。 在 5.2.1 小 市 
中 ， 这 个 函数 的 定义 为 : | 

Gef inference(input tensor, avg class, weightsl1, biasesl1l, weights2, biases2): 
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从 定义 中 可 以 看 到 ， 这 个 函数 的 参数 中 包括 了 神经 网 络 中 的 所 有 参数 。 然 而 ， 当 神经 
网 络 的 结构 更 加 复杂 、 参 数 更 多 时 ， 就 需要 一 个 更 好 的 方式 来 传递 和 管理 神经 网 络 中 的 参 
数 了 。TensorFlow 提供 了 通过 变量 名 称 来 创建 或 者 获取 一 个 变量 的 机 制 。 通 过 这 个 机 制 ， 
在 不 同 的 函数 中 可 以 直接 通过 变量 的 名 字 来 使 用 变量 ， 而 不 需要 将 变量 通过 参数 的 形式 到 
处 传递 。TensorFlow 中 通过 变量 名 称 获取 变量 的 机 制 主 要 是 通过 tf.get_variable 和 
tfvariable_ scope 函数 实现 的 。 下 面 将 分 别 介绍 如 何 使 用 这 两 个 函数 。 

第 4 章 介 绍 了 通过 tf.Variable 函数 来 创建 一 个 变量 。 除 了 给 Variable 函数 ，TensorFlow 
还 提供 了 tget_variable 函数 来 创建 或 者 获取 变量 。 当 给 get_variable 用 于 创建 变量 时 , 它 和 
tf.Variable 的 功能 是 基本 等 价 的 。 以 下 代码 给 出 了 通过 这 两 个 函数 创建 同一 个 变量 的 样 例 。 

# 下 面 这 两 个 定义 是 等 价 的 。 

v= ttret variable( sv Shape= Els 


initializer=tf.constant initializer(1.0)) 
Vv = tf.Variable(tf.constant(1.0, shape=[1]), name="Vv") 


从 上 面 的 代码 中 可 以 看 出 ， 通 过 tf.Variable 和 tf.get_variable 函数 创建 变量 的 过 程 基本 
上 是 一 样 的 。tf.get_variable 函数 调用 时 提供 的 维度 (shape) 信 息 以 及 初始 化 方法 (initializer) 
的 参数 和 tf.Variable 函数 调用 时 提供 的 初始 化 过 程 中 的 参数 也 类 似 。TensorFlow 中 提供 的 
initializer 函数 和 3.4.3 小 节 中 介绍 的 随机 数 以 及 利 量 生成 函数 大 部 分 是 一 一 对 应 的 。 比 如 ， 
在 上 面 的 样 例 程序 中 使 用 到 的 常数 初始 化 函数 给 constant initializer 和 常数 生成 函数 
tf.constant 功能 上 就 是 一 致 的 。TensorFlow 提供 了 7 种 不 同 的 初始 化 函数 ， 表 5-2 总 结 了 它 
们 的 功能 和 主要 参数 

表 5-2 TensorFlow 中 的 变量 初始 化 函数 

将 变量 初始 化 为 满足 正 态 分 布 的 随机 值 正 态 分 布 的 均值 和 标准 差 


将 变量 初始 化 为 满足 正 态 分 布 的 随机 值 ， 但 如 果 随 机 | 正 态 分 布 的 均值 和 标准 差 
出 来 的 值 偏离 平均 值 超过 2 个 标准 差 ， 那 么 这 个 数 将 | 
会 被 重新 随机 


将 变量 初始 化 为 满足 平均 分 布 的 随机 值 最 大 、 最 小 值 


将 变量 初始 化 为 满足 平均 分 布 但 不 影响 输出 数量 级 的 | factor( 产 生 随 机 值 时 乘 以 的 
随机 值 系数 ) 


tf.get_variable 函数 与 萎 Variable 函数 最 大 的 区 别 在 于 指定 变量 名 称 的 参数 。 对 于 
tf.Variable 函数 ， 变 量 名 称 是 一 个 可 选 的 参数 ， 通 过 name="v" 的 形式 给 出 。 但 是 对 于 
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tf.get_Variable 函数 ， 变 量 名 称 是 一 个 必 填 的 参数 。tf.get_variable 会 根据 这 个 名 字 去 创建 或 
者 获取 变量 ,。 在 上 面 的 样 例 程 序 中 ,tf.get_variable 首先 会 试图 去 创建 一 个 名 字 为 v 的 参数 ， 
如 果 创 建 失败 (比如 已 经 有 同名 的 参数 )， 那 么 这 个 程序 就 会 报错 。 这 是 为 了 避免 无 意识 的 
变量 复 用 造成 的 错误 。 比 如 在 定义 神经 网 络 参数 时 ， 第 一 层 网 络 的 权重 已 经 叫 weights 了 ， 
那么 在 创建 第 二 层 神 经 网 络 时 ， 如 果 参 数 名 仍然 叫 weights， 就 会 触发 变量 重用 的 错误 。 否 
则 两 层 神 经 网 络 共用 一 个 权重 会 出 现 一 些 比较 难以 发 现 的 错误 。 如 果 需 要 通过 
tf.get_vVariable 获取 一 个 已 经 创建 的 变量 , 需要 通过 tf.variable scope 函数 来 生成 一 个 上 下 文 
管理 器 ， 并 明确 指定 在 这 个 上 下 文 管理 器 中 ，tf.get variable 将 直接 获取 已 经 生成 的 变量 。 
下 面 给 出 了 一 段 代码 说 明 如 何 通过 tf.variable_scope 函数 来 控制 tf.get_variable 函数 获取 已 
经 创建 过 的 变量 。 

# 在 名 字 为 foo 的 命名 空间 内 创建 名 字 为 v 的 变量 。 

with tf.variable scope ("foo"): 


v= tfsget-variable'( 
Ve raul Initializer=tfsconstant. initializer(l10.,)) 


# 因为 在 命名 空间 foo 中 已 经 存在 名 字 为 v 的 变量 ， 所 有 下 面 的 代码 将 会 报错 : 
# Variable foo/v already exists, disallowed. Did you mean to set reuse=True 
# in VarScope? 
with tf.variable scope ("foo"): 
ve=tfaqet varLTab Tet ve yl 


# 在 生成 上 下 文 管理 器 时 , 将 参数 reuse 设置 为 True。 这 样 tf.get variable 函数 将 直接 获取 
# 已 经 声明 的 变量 。 
with tf.variable scope ("foo", reuse=True): 

vi = tf Get variable (yyy TEE) 

print v-==;vV1 # 输出 为 True， 代表 v，v1 代表 的 是 相同 的 TensorFlow 中 变量 。 


# 将 参数 reuse 设置 为 True 时 ，tf.variable scope 将 只 能 获取 已 经 创建 过 的 变量 。 因 为 在 

# 命名 空间 bar 中 还 没有 创建 变量 v， 所 以 下 面 的 代码 将 会 报错 : 

# Variable bar/v does not exist, disallowed. Did you mean to set reuse=None 

# in VarScope? | 

with tf.variable scope ("bar", reuse=True): 

Vm el Cb ar lable yd) 

上 面 的 样 例 人 简单 地 说 明了 通过 tf.variable scope 函数 可 以 控制 tfget variable 函数 的 语 
义 。 当 tvariable_scope 函数 使 用 参数 reuse=True 生成 上 下 文 管理 器 时 ， 这 个 上 下 文 管理 器 
内 所 有 的 给 get_variable 函数 会 直接 获取 已 经 创建 的 变量 。 如 果 变 量 不 存在 , 则 tf.get_variable 
痕 数 将 报错 ; 相反 ， 如 果 tfvariable scope 国 数 使 用 参数 reuse=None 或 者 reuse=False 创建 
上 下 文 泡 理 器 ，tf.get_variable 操作 将 创建 新 的 变量 。 如 果 同 名 的 变量 已 经 存在 ， 则 
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tf.get_variable 孙 数 将 报错 。TensorFlow 中 tf.variable_ scope 函数 是 可 以 蔷 套 的 。 下 面 的 程序 
说 明了 当 tf.variable_scope 函数 和 藤 套 时 ，reuse 参数 的 取 值 是 如 何 确定 的 。 


with tf.variable SCope ("Ioot") : 
# 可 以 通过 tf.get variable scope() .reuse 函数 来 获取 当前 上 下 文 管理 器 中 reuse 参 
# 数 的 取 值 。 
print tf.get variable scope() .reuse  # 输出 False, 即 最 外 层 reuse 是 False。 


with tf.variable scope ("foo", reuse=True): # 新 建 一 个 栎 套 的 上 下 文 管理 器 ， 
# 并 指定 reuse 为 True。 
print tf.get variable scope() .reuse # 输出 True。 
with tf.variable scope ("bar"): # 新 建 一 个 藤 套 的 上 下 文 管理 器 但 
# 不 指定 reuse， 这 时 reuse 
# 的 取 值 会 和 外 面 一 层 保持 一 致 。 
print tf.get variable scope() .reuse # 输出 True。 
print tf.get variable scope() .reuse # 输出 False。 退 出 reuse 设置 
# 为 True 的 上 下 文 之 后 
# reuse 的 值 又 回 到 了 False。 


tf.variable_scope 函数 生成 的 上 下 文 管理 器 也 会 创建 一 个 TensorFlow 中 的 命名 空间 , 在 
命名 空间 内 创建 的 变量 名 称 都 会 带 上 这 个 命名 空间 名 作为 前 经。 所 以 ，tf.variable_scope 函 
数 除 了 可 以 控制 tfget_variable 执行 的 功能 之 外 ， 这 个 函数 也 提供 了 一 个 管理 变量 命名 空间 
的 方式 。 以 下 代码 显示 了 如 何 通 过 萎 variable _ scope 来 管理 变量 的 名 称 。 

Ve tfagety variable (ev lk) 

print vl.name # 输出 VvV:0。“v” 为 变量 的 名 称 ,“ : 0” 表 示 这 个 变量 是 生成 变量 这 个 运算 

# 的 第 一 个 结果 。 


with tf.variable scope ("foo"): 
v2 =etnvariaDlen mv lL] | 
print v2.name # 输出 foo/v:0。 在 tf.variable scope 中 创建 的 变量 ， 名 称 前 面 会 
# 加 入 命名 空间 的 名 称 ， 并 通过 /来 分 隔 命名 空间 的 名 称 和 变量 的 名 称 。 


with tf.variable scope("foo") : 
with tf.variable scope ("bar"): 
Vm tt Get VarlaDle( rv ls 
print v3.name # 输出 foo/bar/v:0。 命名 空间 可 以 散 套 ,同时 变量 的 名 称 也 会 加 
# 入 所 有 命名 空间 的 名 称 作为 前 级 。 


VA = tf Get variable (LVvEres[ll:) 
print v4.name # 输出 foo/v1 :0。 当 命名 空间 退出 之 后 ， 变 量 名 称 也 就 不 会 再 被 加 入 
# 其 前 缀 了 。 


# 创建 一 个 名 称 为 空 的 命名 空间 ， 并 设置 reuse=True。 


with tf.variable scopel("", reuse=True): 
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v5 = tf.get variable ("foo/bar/v"， [1]) # 可 以 直接 通过 带 命名 空间 名 称 的 变量 名 
# 来 获取 其 他 命名 空间 下 的 变量 。 比 如 这 
# 里 通过 指定 名 称 fo00/bar/v 来 获取 在 
# 命名 空间 foo/bar/ 中 创建 的 变量 。 


print v5 ==. V3 # 输出 True。 
v6 = tf.get variable(foo/vl",™ [1]) 
print. wr6ss=yAd # 输出 True。 


通过 tf.variable scope 和 tf.get variable 函数 ， 以 下 代码 对 5.2.1 小 节 中 定义 的 计算 前 问 
传播 结果 的 图 数 做 了 一 些 改进 。 


def -inference(input tensory reuse=False)s: 
# 定义 第 一 层 神经 网 络 的 变量 和 前 向 传播 过 程 。 
with tf.variablesscope (layerl”, reuse=reuse).: 
# 根据 传 进来 的 reuse 来 判断 是 创建 新 变量 还 是 使 用 已 经 创建 好 的 。 在 第 一 次 构造 网 
# 络 时 需要 创建 新 的 变量 ， 以 后 每 次 调用 这 个 函数 都 直接 使 用 reuse=True 就 不 需 
# 要 每 次 将 变量 传 进来 了 。 
weights = tf.get variable ("weights", [INPUT NODE, LAYER1 NODE], 
initializer=tf.truncated normal initializer (stddev=0.1)) 
biases = tf.get variable ("biases", [LAYER]1 NODE], 
initializer=tf.constant:initializer (0.0)) 
layerl1 = tf.nn.relul(tf.matmul (input tensor, weights) + biases) 


# 类 似 地 定义 第 二 层 神经 网 络 的 变量 和 前 向 传播 过 程 。 
with tf.variable scope('layer2', reuse=reuse): 
weights = tf.get variable ("weights", [LAYER1 NODE, OUTPUT NODE], 
initializer=tf.truncated normal initializer (stddev=0.1)) 
biases = tf.get variable ("biases"y [OUTPUT NODE], 
initializer=tf.constant initializer(0.0)) 
layer2 = tf.matmul (layerl, weights) + biases 
# 返回 最 后 的 前 向 传播 结果 。 


return layer2 


x = tf.placeholder (tf.float32, [None, INPUT NODE], name='x-input’) 
y inference (x) 


# 在 程序 中 需要 使 用 训练 好 的 神经 网 络 进 行 推导 时 ， 可 以 直接 调用 inference (new_x,， True)。 

# 如 果 需 要 使 用 滑动 平均 模型 可 以 参考 5.2 .1 小 节 中 使 用 的 代码 ， 把 计算 滑动 平均 的 类 传 到 

# inference 函数 中 即 可 。 获 取 或 者 创建 变量 的 部 分 不 需要 改变 。 

new xX = ... 

new y = inference (new x, True) i 

使 用 上 面 这 段 代码 所 示 的 方式 ， 就 不 再 需要 将 所 有 变量 都 作为 参数 传递 到 不 同 的 函数 
中 了 。 当 神经 网 络 结构 更 加 复杂 、 参 数 更 多 时 ， 使 用 这 种 变量 管理 的 方式 将 大 大 提高 程序 
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的 可 读 性 。 


5.4 TensorFlow 模型 持久 化 


在 5.2.1 小 市 中 给 出 的 样 例 代码 在 训练 完成 之 后 就 直接 退出 了 , 并 没有 将 训练 得 到 的 模 
型 保存 下 来 方便 下 次 直接 使 用 。 为 了 让 训练 结果 可 以 复 用 ， 需 要 将 训练 得 到 的 神经 网 络 模 
型 持久 化 。5.4.1 小 市 将 介绍 通过 TensorFlow 程序 来 持久 化 一 个 训练 好 的 模型 ,并 从 持久 化 
之 后 的 模型 文件 中 还 原 被 保存 的 模型 。 然 后 5.4.2 小 节 将 介绍 TensorFlow 持久 化 的 工作 原 
理 和 持久 化 之 后 文件 中 的 数据 格式 。 


5.4.1 持久 化 代码 实现 


TensorFlow 提供 了 一 个 非 营 简单 的 API 来 保存 和 还 原 一 个 神经 网 络 模 型 。 这 个 API 就 
是 给 train.Saver 类 。 以 下 代码 给 出 了 保存 TensorFlow 计算 图 的 方法 。 


import tensorflow as tf 


# 声明 两 个 变量 并 计算 它们 的 和 。 

v1 = tf.Variable (tf.constant (1.0, shape=[1]), name="v1") 
v2 = tf.Variable (tf.constant (2.0, shape=[1]), name="v2") 
resudb le ty 


Initeope— tf initialize rall variables'() 
# 声明 tf.train.Saver 类 用 于 保存 模型 。 


saver = tf.train.Saver() 


with tf.Session() as sess: 
sess.run(init op) : 


# 将 模型 保存 到 /path/to/model/model .Ckpt 文件 。 
Saver.Ssave (Sess/ "/path/to/model/model .ckpt") 

上 面 的 代码 实现 了 持久 化 一 个 简单 的 TensorFlow 模型 的 功能 。 在 这 段 代 码 中 ， 通 过 
saver.Save 函数 将 TensorFlow 模型 保存 到 了 /path/to/model/model.ckpt 文件 中 。 TensorFlow 模 
型 一 般 会 存在 后 级 为 .ckpt 的 文件 中 。 虽 然 上 面 的 程序 只 指定 了 一 个 文件 路 径 ， 但 是 在 这 个 
文件 目录 下 会 出 现 三 个 文件 。 这 是 因为 TensorFlow 会 将 计算 图 的 结构 和 图 上 参数 取 值 分 开 
保存 。 

上 面 这 段 代 码 会 生成 的 第 一 个 文件 为 model.ckpt.meta， 它 保存 了 TensorFlow 计算 图 的 
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结构 。 第 3 章 中 介绍 过 TensorFlow 计算 图 的 原理 ， 这 里 可 以 简单 理解 为 神经 网 络 的 网 络 结 
构 。 第 二 个 文件 为 model.ckpt， 这 个 文件 中 保存 了 TensorFlow 程序 中 每 一 个 变量 的 取 值 。 
最 后 一 个 文件 为 checkpoint 文件 ， 这 个 文件 中 保存 了 一 个 目录 下 所 有 的 模型 文件 列表 。 对 
这 些 文件 中 的 具体 内 容 ，5.4.2 小 节 中 将 详细 讲述 。 以 下 代码 中 给 出 了 加 载 这 个 已 经 保存 的 
TensorFlow 模型 的 方法 。 


import tensorflow as tf 


# 使 用 和 保存 模型 代码 中 一 样 的 方式 来 声明 变量 。 

V1 tf.Variable (tf.constant (1.0, shape=[1]), name="v1") 
V2 tf.Variable (tf.constant (2.0, shape=[1]), name="v2") 
result = vy Le Ty2 


Saver:= tf.train.Saver() 


with tf.Session() as sess: 
# 加 载 已 经 保存 的 模型 ， 并 通过 已 经 保存 的 模型 中 变量 的 值 来 计算 加 法 。 
saver.restore(sess, "/path/to/model/model .ckpt") 
print sess.run (result) 


这 段 加 载 模型 的 代码 基本 上 和 保存 模型 的 代码 是 一 样 的 。 在 加 载 模型 的 程序 中 也 是 先 
定义 了 TensorFlow 计算 图 上 的 所 有 运算 ， 并 声明 了 一 个 给 train.Saver 类 。 两 段 代码 唯一 不 
同 的 是 ， 在 加 载 模型 的 代码 中 没有 运行 变量 的 初始 化 过 程 ， 而 是 将 变量 的 值 通过 已 经 保存 
的 模型 加 载 进 来 。 如 果 不 希 望 重 复 定义 图 上 的 运算 ， 也 可 以 直接 加 载 已 经 持久 化 的 图 。 以 
下 代码 给 出 了 一 个 样 例 。 

import tensorflow as tf 


# 直接 加 载 持久 化 的 图 。 
saver = tf,train.import meta _ graph ( 
"/path/to/model/model .ckpt/model .ckpt .meta") 
with tf.Session() as sess: 
saver.restore (sess, "/path/to/model/model .ckpt")- 


# 通过 张 量 的 名 称 来 获取 张 量 。 z : 
print sess.run(tf.get default graph{() .get tensor by name ("add:0")) 
# 输出 [ 3.] A 
在 上 面 给 出 的 程序 中 ， 默 认 保 存 和 加 载 了 TensorFlow 计算 图 上 定义 的 全 部 变量 。 但 有 
时 可 能 只 需要 保存 或 者 加 载 部 分 变量 。 比 如 ， 可 能 有 一 个 之 前 训练 好 的 五 层 神经 网 络 模型 ， 
但 现在 想 尝 试 一 个 六 层 的 神经 网 络 ， 那 么 可 以 将 前 面 五 层 神经 网 络 中 的 参数 直接 加 载 到 新 
的 模型 ， 而 仅仅 将 最 后 一 层 神 经 网 络 重 新 训练 。 
为 了 保存 或 者 加 载 部 分 变量 ， 在 声明 给 train.Saver 类 时 可 以 提供 一 个 列表 来 指定 需要 
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保存 或 者 加 载 的 变量 。 比如 在 加 载 模型 的 代码 中 使 用 saver = tftrain.Saver([v1]) 命 令 来 构建 
tf.train.Saver 类 ， 那么 只 有 变量 v1 会 被 加 载 进来 。 如 果 运 行 修改 后 只 加 载 了 v1 的 代码 会 得 
到 变量 未 初始 化 的 铺 误 : 


tensorflow.python.framework.errors.FailedPreconditionError: Attempting to 
use uninitialized value v2 


因为 v2 没有 被 加 载 ， 所 以 v2 在 运行 初始 化 之 前 是 没有 值 的 。 除 了 可 以 选取 需要 被 加 
载 的 变量 ，tftrain.Saver 类 也 支持 在 保存 或 者 加 载 时 给 变量 重 命 名。 下面 给 出 了 一 个 简单 的 
样 例 程 序 说 明 变 量 重 命名 是 如 何 被 使 用 的 。 

# 这 里 声明 的 变量 名 称 和 已 经 保存 的 模型 中 变量 的 名 称 不 同 。 
tf.Variable (tf.constant (1.0, shape=[1]), name="other-vl") 
tf.Variable (tf.constant (2.0, shape=[1]), name="other-v2") 


ob 
V2 


# 如 果 直 接 使 用 tf .train.Saver() 来 加 载 模 型 会 报 变 量 找 不 到 的 错误 。 下 面 显示 了 报错 信息 : 
# tensorflow.python.framework.errors.NotFoundError: Tensor name "other-v2" 
# not found in chéckpoint files /path/to/model/model .ckpt 


# 使 用 一 个 字典 (dictionary) 来 重 命名 变量 可 以 就 可 以 加 载 原来 的 模型 了 。 这 个 字典 指定 了 

# 原来 名 称 为 v1 的 变量 现在 加 载 到 变量 v1 中 (名 称 为 octher-v1)， 名 称 为 v2 的 变量 

# 加 载 到 变量 v2 中 名称 为 other-v2)。 

Saverd=eti tralns Saver (a LV Lr 

在 这 个 程序 中 ， 对 变量 v1 和 v2 的 名 称 进行 了 修改 。 如 果 直 接 通 过 tftrain.Saver 默认 
的 构造 函数 来 加 载 保存 的 模型 ， 那 么 程序 会 报 变 量 找 不 到 的 错误 。 因 为 保存 时 候 变 量 的 名 
称 和 加 载 时 变量 的 名 称 不 一 致 。 为 了 解决 这 个 问题 ，TensorFlow 可 以 通过 字典 (dictionary) 
将 模型 保存 时 的 变量 名 和 需要 加 载 的 变量 联系 起 来 。 

这 样 做 主要 目的 之 一 是 方便 使 用 变量 的 请 动 平 均值 。 在 4.4.3 小 节 中 介绍 了 使 用 变量 的 
滑动 平均 值 可 以 让 神经 网 络 模型 更 加 健壮 〈robust)。 在 TensorFlow 中 ， 每 一 个 变量 的 滑动 
平均 值 是 通过 影子 变量 维护 的 ， 所 以 要 获取 变量 的 滑动 平均 值 实际 上 就 是 获取 这 个 影子 变 
量 的 取 值 。 如 果 在 加 载 模型 时 直接 将 影子 变量 映射 到 变量 自身 ， 那 么 在 使 用 训练 好 的 模型 
时 束 不 需要 再 调用 函数 来 获取 变量 的 滑动 平均 值 了 ,这 样 大 大 方便 了 滑动 平均 模型 的 使 用 。 
以 下 代码 给 出 了 一 个 保存 滑动 平均 模型 的 样 例 。 


import tensorflow as tf 


Vv = tf.Variable(0, dtype=tf.float32, name="yV") 
# 在 没有 申明 滑动 平均 模型 时 只 有 一 个 变量 v， 所 以 下 面 的 语句 只 会 输出 “v:0”。 
for variables in tf>.allvariables,():: 

print variables.name 
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ema = tf.train.ExponentialMovingAverage(0.99) 
maintain averages op = ema.apply(tf.all variables () ) 
# 在 申明 滑动 平均 模型 之 后 ，TensorFlow 会 自动 生成 一 个 影子 变量 
# VvV/ExponentialMoving Average。 于 是 下 面 的 语句 会 输出 
# “v:0” 和 和 “v/ExponentialMovingAverage:0”。 
for variables in tf.all varjables().: 

print variables.name 


saver = tf.train.Saver (). 

with tf.Session() as sess: 
init op = tf.initialize all variables' (0) 
sess.run(init op) 


sess.run(tf.assign(v, 10)) 
Sess.run (maintaln averages op) 
# 保存 时 , TensorFlow 会 将 VvV:0 和 Vv/ExponentialMovingAverage:0 两 个 变量 都 存 下 来 。 
Saver.save (sess, "/path/to/model/model .ckpt") 

print sess.run([v, ema.average (v) ] ) # 输出 [10.0，0.099999905] 


以 下 代码 给 出 了 如 何 通过 变量 重 命名 直接 读 取 变 量 的 滑动 平均 值 。 从 下 面 程序 的 输出 


可 以 看 出 ， 读 取 的 变量 v 的 值 实际 上 是 上 面 代码 中 变量 v 的 滑动 平均 值 。 通 过 这 个 方法 ， 
融 可 以 使 用 完全 一 样 的 代码 来 计算 滑动 平均 模型 前 同 传 播 的 结果 。 


Vv = tf.Variable(0, dtype=tf.float32, name="V") 
# 通过 变量 重 命 名 将 原来 变量 v 的 滑动 平均 值 直 接 赋值 给 v。 
saver = tf.train.Saver({"v/ExponentialMovingAverage": Vv}) 
with tf.Session() as sess: 
saver.restore(sess, "/path/to/model/model .ckpt") 


print sess.run(v) # 输出 0.099999905， 这 个 值 就 是 原来 模型 中 变量 v 的 滑动 平均 值 。 
为 了 方便 加 载 时 重 命 名 滑动 平均 变量 ， 萎 train.ExponentialMovingAverage 类 提供 了 


variables to _ restore 函数 来 生成 ttrain.Saver 类 所 需要 的 变量 重 命名 字典 。 以 下 代码 给 出 了 
variables to _restore 图 数 的 使 用 样 例 。 
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import tensorflow as tf 


Vv = tf.Variable(0, dtype=tf.float32, name="V") 
ema = tf.train.ExponentialMovingAverage (0.99) 


# 通过 使 用 variables to _restore 函数 可 以 直接 生成 上 面 代码 中 提供 的 字典 


# {"v/ExponentialMovingAverage": v}。 


# 以 下 代码 会 输出 : 


# {'v/ExponentialMovingAverage': <tensorflow.python.ops.variables.Variable 
# object at Ox7ff6454ddc10>} 
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# 其 中 后 面 的 Variable 类 就 代表 了 变量 v。 


print .ema.variables :七 .estore ()) 


Savers=eEtE tralin, Saver(emasvariables to restore(),) 
with tf.Session() as sess: 
saver.restore(sess, "/path/to/model/model .ckpt") 


print sess.run(v) # 输出 0.099999905， 即 原来 模型 中 变量 v 的 滑动 平均 值 。 


使 用 给 train.Saver 会 保存 运行 TensorFlow 程序 所 需要 的 全 部 信息 ， 然 而 有 时 并 不 需要 
人 东 些 信息 。 比 如 在 测试 或 者 离线 预测 时 ， 只 需要 知道 如 何 从 神经 网 络 的 输入 层 经 过 前 向 传 
播 计 算得 到 输出 层 即 可 ， 而 不 需要 类 似 于 变量 初始 化 、 模 型 保存 等 辅助 节点 的 信息 。 在 第 
6 草 介 绍 迁 移 和 学习 时 ， 会 遇 到 类 似 的 情况 。 而 且 ， 将 变量 取 值 和 计算 图 结构 分 成 不 同 的 文 
件 存储 有 时 候 也 不 方便 ， 于 是 TensorFlow 提供 了 convert variables_to_constants 函数 ， 通过 
这 个 函数 可 以 将 计算 图 中 的 变量 及 其 取 值 通过 常量 的 方式 保存 ， 这 样 整个 TensorFlow 计算 
图 可 以 统一 存放 在 一 个 文件 中 。 下 面 的 程序 提供 了 一 个 样 例 。 


import tensorflow as tf 
from tensorflow.python.framework import graph util 


v1 = tf.Variable (tf.constant(1.0, shape=[1]), name="v1") 
v2 = tf.Variable (tf.constant (2.0, shape=[1]), name="v2") 
result = vl + v2 


init ops= tf.initializevall variables() 
with tf.Session() as sess: 
sess.run(init op) 
# 叶 出 当前 计算 图 的 GraphDef 部 分 ， 只 需要 这 一 部 分 就 可 以 完成 从 输入 层 到 输出 层 的 计算 
# 过 程 。 
Graphaudef. = tfsget default graph()ysassgraph daeffk) 


# 将 图 中 的 变量 及 其 取 值 转化 为 常量 ， 同 时 将 图 中 不 必要 的 节点 去 掉 。 在 5.4.2 小 节 中 将 会 看 

# 到 一 些 系统 运算 也 会 被 转化 为 计算 图 中 的 节点 《比如 变量 初始 化 操作 )。 如 果 只 关心 程序 中 定 

# 义 的 茶 些 计算 时 ， 和 这 些 计 算 无 关 的 节点 就 没有 必要 导出 并 保存 了 。 在 下 面 一 行 代码 中 , .最 

# 后 一 个 参数 ['add'] 给 出 了 需要 保存 的 节点 名 称 。aqd 节点 是 上 面 定 义 的 两 个 变量 相 加 的 

# 操作 。 注 意 这 里 给 出 的 是 计算 节点 的 名 称 ， 所 以 没有 后 面 的: 0%。 

output graph def = graph util.convert variables to constants ( 
sessygraph defy. tadd.j]) 

# 将 导出 的 模型 存 入 文件 。 

with tf.gfile.GFile("/path/to/model/combined model.pb", "wb") as f: 
f.write (output graph def.SerializeToString ()) 


(WD 第 3 章 中 介绍 过 张 量 的 名 称 后 面 有 :0， 表 示 是 某 个 计算 节点 的 第 一 个 输出 。 而 计算 节点 本 身 的 名 称 后 
是 没有 :0 的 。 
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通过 下 面 的 程序 可 以 直接 计算 定义 的 加 法 运算 的 结果 。 当 只 需要 得 到 计算 图 中 霖 个 贡 
点 的 取 值 时 ， 这 提供 了 一 个 更 加 方便 的 方法 。 第 6 章 将 使 用 这 种 方法 来 使 用 训练 好 的 模型 
完成 迁移 学 习 。 

import tensorflow as tf 

from tensorflow.python.platform import gfile 


with tf.Session() as sess: 
model filename = "/path/to/model/combined model .pb" 
# 读 取 保存 的 模型 文件 ， 并 将 文件 解析 成 对 应 的 GraphDef Protocol Buffer。 
with gfile.FastGrile(model filename, "rb!')>as f: 
graph defs= st sraphDeE:() 
graph def.ParseFromString(f.read()) 


# 将 graph def 中 保存 的 图 加 载 到 当前 的 图 中 。return elements=["add:0"] 给 出 了 返回 
# 的 张 量 的 名 称 。 在 保存 的 时 候 给 出 的 是 计算 节点 的 名 称 ， 所 以 为 “addq"。 在 加 载 的 时 候 给 出 
# 的 是 张 量 的 名 称 ， 所 以 是 add:0。 

result = tf.import graph def(graph def, return elements=["add:0"]) 
print sess.run(result) 


5.4.2 ”持久 化 原理 及 数据 格式 


5.4.1 小 节 介 绍 了 当 调 用 saversave 函数 时 ，TensorFlow 程序 会 目 动 生成 3 个 文件 。 
TensorFlow 模型 的 持久 化 就 是 通过 这 3 个 文件 完成 的 。 这 一 小 节 将 详细 介绍 这 3 个 文件 中 
保存 的 内 容 以 及 数据 格式 。 在 具体 介绍 每 一 个 文件 之 前 ， 先 简单 回顾 一 下 第 3 章 中 介绍 过 
的 TensorFlow 的 一 些 基 本 概念 。TensorFlow 是 一 个 通过 图 的 形式 来 表述 计算 的 编程 系统 ， 
TensorFlow 程序 中 的 所 有 计算 都 会 被 表达 为 计算 图 上 的 节点 。TensorFlow 通过 元 图 
(MetaGraph ) 来 记录 计算 图 中 节点 的 信息 以 及 运行 计算 图 中 节点 所 需要 的 元 数据 。 
TensorFlow 中 元 图 是 由 MetaGraphDef Protocol Buffer 定义 的 >。MetaGraphDef 中 的 内 容 就 
构成 了 TensorFlow 持久 化 时 的 第 一 个 文件 。 以 下 代码 给 出 了 MetaGraphDef 类 型 的 定义 。 


message MetaGraphDef { 
MetalnfoDefsmeta info=sdef®s=51? 


GraphDef graph def = 2; 
SaverDef saver def 三 337 
map<string, CollectionDef> collection -def = 4; 


@ 2.1 节 中 有 关于 Protocol Buffer 的 具体 介绍 。 
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map<string; SignatureDef> signature def ,= 3; 


} 


从 上 面 的 代码 中 可 以 看 到 , 元 图 中 主要 记录 了 5 类 信息 。 下面 的 篇 幅 将 结合 5.4.1 小 节 
中 变量 相 加 样 例 的 持久 化 结果 ， 逐 一 介绍 MetaGraphDef 类 型 的 每 一 个 属性 中 存储 的 信息 。 
保存 MetaGraphDef 信息 的 文件 默认 以 .meta 为 后 缀 名 ， 在 5.4.1 小 节 的 样 例 中 ， 文 件 
model.ckpt.meta 中 存储 的 就 是 元 图 的 数据 。 直接 运行 5.4.1 小 节 样 例 得 到 的 是 一 个 二 进 制 文 
件 ， 无 法 直接 但 看。 为 了 方便 调试 ，TensorFlow 提供 了 export meta graph 函数 ， 这 个 函数 
支持 以 json 格式 导出 MetaGraphDef Protocol Buffer。 以 下 代码 展示 了 如 何 使 用 这 个 函数 。 


‘import tensorflow as tf 


# 定义 变量 相 加 的 计算 。 
vl = tf.Variable(tf.constant (1.0, shape=[1]), name="v1") 
v2 = tf.Variable (tf.constant (2.0, shape=[1]), name='"v2") 
已 STEVE 


Saver = tf :traln.Saver() 

# 通过 export meta graph 函数 导出 TensorFlow 计算 图 的 元 图 ， 并 保存 为 json 格式 。 

Saver.export meta graph("/path/to/model.ckpt.meda.json", as text=True) 

通过 上 面 给 出 的 代码 ， 可 以 将 5.4.1 小 节 中 的 计算 图 元 图 以 json 的 格式 导出 并 存储 在 
model.ckpt.meta.json 文件 中 。 下 文 将 结合 model.ckpt.meta.json 文件 具体 介绍 TensorFlow 元 
图 中 存储 的 信息 。 


meta_info_def 属性 


meta_info_ def 属性 是 通过 MetaInfoDef 定义 的 ， 它 记录 了 TensorFlow 计算 图 中 的 元 数 
据 以 及 TensorFlow 程序 中 所 有 使 用 到 的 运算 方法 的 信息 。 下 面 是 MetaInfoDef Protocol 
Buffer 的 定义 : 
message MetaInfoDef { 
string meta graph version = 1; 
OpList stripped op i1ist = 2; 
google.protobuf.Any any info = 3; 
repeated string tags = 4; 
时 
TensorFlow 计算 图 的 元 数据 包括 了 计算 图 的 版 本 号 (meta_graph_version 属性 ) 以 及 用 
户 指定 的 一 些 标 签 〈tags 属性 )。 如 果 没 有 在 saver 中 特殊 指定 ， 那 么 这 些 属性 都 默认 为 空 。 
在 model.ckpt.meta.json 文件 中 , meta info def 属性 里 只 有 stripped op list 属性 是 不 为 空 的 。 
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stripped_op_list 属性 记录 了 TensorFlow 计算 图 上 使 用 到 的 所 有 运算 方法 的 信息 。 注 意 
stripped_op_list 属性 保存 的 是 TensorFlow 运算 方法 的 信息 ， 所 以 如 果菜 一 个 运算 在 
TensorFlow 计算 图 中 出 现 了 多 次 ， 那 么 在 stripped op list 也 只 会 出 现 一 砍 。 比 如 在 
model.ckpt.meta.json 文件 的 stripped_op_list 属性 中 只 有 一 个 Variable 运算 , 但 这 个 运算 在 程 
序 中 被 使 用 了 两 次 。stripped_ op list 属性 的 类 型 是 OpList。OpList 类 型 是 一 个 OpDef 类 型 
的 列表 ， 以 下 代码 给 出 了 OpDef 类 型 的 定义 : 


message OpDef { 
string name = 1; 
repeated ArgDef input arg = 2; 
repeated ArgDef output arg = 3; 
repeated AttrDef attr = 4; 


string summary = 5; 
string description = 6; 
OpDeprecation deprecation = 8; 


bool is commutative = 18; 
bool is aggregate = 16 
bool. is stateful:= Ls 
bool allows uninitialized input = 19; 
上 这 
OpDef 类 型 中 前 四 个 属性 定义 了 一 个 运算 最 核心 的 信息 。OpDef 中 的 第 一 个 属性 name 
定义 了 运算 的 名 称 ， 这 也 是 一 个 运算 唯一 的 标识 符 。 在 TensorFlow 计算 图 元 图 的 其 他 属性 
中 ， 比 如 下 面 将 要 介绍 的 GraphDef 属性 ， 将 通过 运算 名 称 来 引用 不 同 的 运算 。OpDef 的 第 
二 和 第 三 个 属性 为 input_arg 和 output_arg， 它 们 定义 了 运算 的 输入 和 输出 。 因 为 输入 输出 
都 可 以 有 多 个 ， 所 以 这 两 个 属性 都 是 列表 (repeated)。 第 四 个 属性 attr 给 出 了 其 他 的 运算 
参数 信息 。 在 model.ckpt.meta.json 文件 中 总 共 定 义 了 7 个 运算 ， 下 面 将 给 出 比较 有 代表 性 
的 一 个 运算 来 辅助 说 明 OpDef 的 数据 结构 。 z 
op { 
name: "Add" 
TDUtEarGat 
name: "x" 
typesattr .el 
} 
nput arget 
name: “y" 
typenmat tr 
} 
OutpUt oer: 
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name :Zz 
ypemabtrea Ts 
} 
oC 
name: "TY" 
type type, 
allowed values 1 
LS Gs 
Ce elsHALE 
type: DIS EEOAT 


} 
} 
上 面 给 出 了 名 称 为 Add 的 运算 。 这 个 运算 有 2 个 输入 和 1 个 输出 ， 输 入 输出 属性 都 指 
定 了 属性 type_attr, 并 且 这 个 属性 的 值 为 了 ,在 OpDef 的 attr 属 性 中 ,必须 要 出 现 名 称 (name) 
为 了 的 属性 ,以 上 样 例 中 , 这 个 属性 指定 了 运算 输入 输出 允许 的 参数 类 型 (allowed_values)。 


graph_def 属性 

graph_def 属性 主要 记录 了 TensorFlow 计算 图 上 的 节点 信息 。TensorFlow 计算 图 的 每 一 
个 节点 对 应 了 TensorFlow 程序 中 的 一 个 运算 。 因 为 在 meta_info def 属性 中 已 经 包含 了 所 有 
运算 的 具体 信息 ， 所 以 graph_def 属性 只 关注 运算 的 连接 结构 。graph def 属性 是 通过 
GraphDef Protocol Buffer 定义 的 ，GraphDef 主要 包含 了 一 个 NodeDef 类 型 的 列表 。 以 下 代 
码 给 出 了 GraphDef 和 NodeDef 类 型 中 包含 的 信息 : 


message GraphDef 1{ 


repeated NodeDef node = 1;} 
VersionDef versions = 4; 


了 7 


message NodeDef { 
"string name = 工 ; 
string op = 2; 
repeated string input = 3; 
string device = 4; 
map<string, AttrValue> attr = 5; 
}; 


GraphDef 中 的 versions 属性 比较 简单 ， 它 主要 存储 了 TensorFlow 的 版 本 号 。GraphDef 
的 主要 信息 都 存在 node 属性 中 ， 它 记 录 了 TensorFlow 计算 图 上 所 有 的 节点 信息 。 和 其 他 
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属性 类 似 ，NodeDef 类 型 中 有 一 个 名 称 属 性 name， 它 是 一 个 节点 的 唯一 标识 符 。 在 
TensorFlow 程序 中 可 以 通过 节点 的 名 称 来 获取 相应 的 节点 。NodeDef 类 型 中 的 op 属性 给 出 
了 该 节点 使 用 的 TensorFlow 运算 方法 的 名 称 , 通过 这 个 名 称 可 以 在 TensorFlow 计算 图 元 图 
的 meta_info_def 属性 中 找到 该 运算 的 具体 信息 。 

NodeDef 类 型 中 的 input 属性 是 一 个 字符 串 列表 ， 它 定义 了 运算 的 输入 。input 属性 中 
每 个 字符 串 的 取 值 格式 为 node:src_output, 其 中 node 部 分 给 出 了 一 个 市 扣 的 名 称 , srce_output 
部 分 表明 了 这 个 输入 是 指定 节点 的 第 几 个 输出 。 当 src_output 为 0 时 ， 可 以 省 略 :src_output 
这 个 部 分 。 比 如 node:0 表示 名 称 为 node 的 节点 的 第 一 个 输出 ， 它 也 可 以 被 记 为 node。 

NodeDef 类 型 中 的 device 属性 指定 了 处 理 这 个 运算 的 设备 。 运 行 TensorFlow 运算 的 设 
备 可 以 是 本 地 机 器 的 CPU 或 者 GPU， 也 可 以 是 一 台 远 程 的 机 器 CPU 或 者 GPU。 第 10 章 
将 具体 介绍 如 何 指定 运行 TensorFlow 运算 的 设备 。 当 device 属性 为 空 时 ，TensorFlow 在 运 
行 时 会 自动 选取 一 个 最 合适 的 设备 来 运行 这 个 运算 。 最 后 NodeDef 类 型 中 的 attr 属性 指定 
了 和 当前 运算 相关 的 配置 信息 。 下 面 列 举 了 model.ckpt.meta.json 文件 中 的 一 些 计算 节点 来 
更 加 具体 地 介绍 graph def 属性 。 

graph def { 

node { 
names SS ui 
op: "Variable" 
a 七 
keys: "outputsshapes, 
Value { 
TSstel Snape {OL {Ll} 


} 
} 


at tr ed | 
key: "dtype" 
Value 1{ 


type: DT FLOAT 
} 
} 


} 


.node 1{ 
name: "add" 
op: "Add" 


input: "vl/read" 
inpute = EVv2/ready 
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node { 
name: "save/control dependency" 
Op Eentity, 


} 


versions { 
producer: 9 
} 
} 
上 面 给 出 了 model.ckpt.meta.json 文件 中 graph_def 属性 里 比较 有 代表 性 的 几 个 节点 。 第 
一 个 节点 给 出 的 是 变量 定义 的 运算 。 在 TensorFlow 中 变量 定义 也 是 一 个 运算 ， 这 个 运算 的 
名 称 为 v1 (name: "v1")， 运 算 方 法 的 名 称 为 Variable (op: "Variable")。 定 义 变量 的 运算 可 
以 有 很 多 个 , 于 是 在 NodeDef 类 型 的 node 属性 中 可 以 有 多 个 变量 定义 的 节点 。 但 定义 变量 
的 运算 方法 只 用 到 了 一 个 ， 于 是 在 MetaInfoDef 类 型 的 stripped op list 属性 中 只 有 一 个 名 
称 为 Variable 的 运算 方法 。 除 了 指定 计算 图 中 市 点 的 名 称 和 运算 方法 ，NodeDef 类 型 中 还 
定义 了 运算 相关 的 属性 。 在 节点 vl 中 ，attr 属性 指定 了 这 个 变量 的 维度 以 及 类 型 。 
给 出 的 第 二 个 节点 是 代表 加 法 运算 的 节点 。 它 指定 了 2 个 输入 ， 一 个 为 vl/read， 田 
一 个 为 v2/read。 其 中 vl/read 代表 的 节点 可 以 读 取 变量 v1 的 值 。 因为 v1 的 值 是 节操 A 
的 第 一 个 输出 ， 所 以 后 面 的 :0 就 可 以 省 略 了 。v2mread 也 类 似 的 代表 了 变量 v2 的 取 值 。 
上 样 例文 件 中 给 出 的 最 后 一 个 名 称 为 save/control dependency， 该 贡 操 pe 
TensorFlow 模型 持久 化 过 程 中 自动 生成 的 一 个 运算 。 在 样 例文 件 的 最 后 ， 属 性 versions 给 
出 了 生成 model.ckpt.meta.json 文件 时 使 用 的 TensorFlow 版 本 号 。 


saver_def 属性 


saver def 属性 中 记录 了 持久 化 模型 时 需要 用 到 的 一 些 参数 , 比如 保存 到 文件 的 文件 名 、 
保存 操作 和 加 载 操作 的 名 称 以 及 保存 频率 、 清 理 历 史记 录 等 。saver def 属性 的 类 型 为 
SaverDef， 其 定义 如 下 。 


message SaverDef { 
stringrfilenames tensoraname = 
StringmSsave Ss tenSsorsnanes 2 
String restore op name ss — 3 
iJnt3Z maxeto Keep =A 
boolsmshardede D> 
float keep checkpoint every n hours = 6; 


enum CheckpointFormatVersion { 
LEGACY = 0; 
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We Se 
AAS 
} 
CheckpointFormatVersion version = 7; 


] 
下 面 给 出 了 model.ckpt.meta.json 文件 中 saver def 属性 的 内 容 。 


Soaveredefsst 
filename tensor name: "save/Const:0" 
save tensor name: "save/control dependency:0" 
restore op name: "save/restore al 
aeLONKeePpRse 
keep checkpoint every n hours: 10000.0 

} 


filename tensor name 属性 给 出 了 保存 文件 名 的 张 量 名 称 ， 这 个 张 量 融 是 万 扣 
save/Const 的 第 一 个 输出 。save tensor_ name 属性 给 出 了 持久 化 TensorFlow 模型 的 运算 所 对 
应 的 节点 名 称 。 从 上 面 的 文件 中 可 以 看 出 ， 这 个 节点 就 是 在 graph_def 属性 中 给 出 的 
save/control dependency 节点 。 和 持久 化 TensorFlow 模型 运算 对 应 的 是 加 载 TensorFlow 模 
型 的 运算 ， 这 个 运算 的 名 称 由 restore op name 属性 指定 。max to keep 属性 和 
keep_checkpoint every_n hours 属性 设 定 了 ttrain.Saver 类 清理 之 前 保存 的 模型 的 策略 。 比 
如 当 max to_keep 为 5 的 时 候 , 在 第 六 次 调用 saversave 时 ,第 一 次 保存 的 模型 就 会 被 自动 
删除 。 通 过 设置 keep checkpoint every n hours,， 每 n 小 时 可 以 在 max to keep 的 基础 上 多 
保存 一 个 模型 。 

collection_def 属性 

在 TensorFlow 的 计算 图 (tf.Graph) 中 可 以 维护 不 同 集合 ,而 维护 这 些 集合 的 确 层 实现 
就 是 通过 collection def 这 个 属性 。collection def 属性 是 一 个 从 集合 名 称 到 集合 内 容 的 映射 ， 
其 中 集合 名 称 为 字符 捉 ， 而 集合 内 容 为 CollectionDef Protocol Buffer。 以 下 代码 给 出 了 
CollectionDef 类 型 的 定义 。 


message CollectionDef { 
message NodeList { : 
repeated string value = 1;} 


} 
message BytesList { 
repeated bytes value = 1; 
} J 
message Int64List { 
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truel]; 


repeated int64 value = 1 [packed 
} 


message FloatList { 
repeated float value = 1 .[packed = truel]; 


} 


message AnyList { 
repeated google.protobuf.Any Value = 1; 
} 


oneof kinad { 
NodeList node list =°™]1» 


BytesList bytesslist = 2; 
TnGoaTlstaintod. | st 03.; 
FloatList float list = 4; 


AnyLISt any list = 57 
} 
} 


通过 上 面 的 定义 可 以 看 出 , TensorFlow 计算 图 上 的 集合 主要 可 以 维护 4 类 不 同 的 集合 。 
NodeList 用 于 维护 计算 图 上 节点 的 集合 。BytesList 可 以 维护 字符 串 或 者 系列 化 之 后 的 
Procotol Buffer 的 集合 。 比 如 张 量 是 通过 Protocol Buffer 表示 的 ， 而 张 量 的 集合 是 通过 
BytesList 维护 的 ， 我 们 将 在 model.ckpt.meta.json 文件 中 看 到 具体 样 例 。Int64List 用 于 维护 
整数 集合 ，FloatList 用 于 维护 实数 集合 。 下 面 给 出 了 model.ckpt.meta.json 文件 中 
collection def 属性 的 内 容 。 


:COPTITectionsdeEs{ 
key: trainable variables” 
value { | 
Dytesslist:{ 
value: "\n\004v1:0\022\tvl/Assign\032\tvl/read:0" 
value: "\n\004v2:0\022\tv2/Assign\032\tv2/read:0" 


} 
} 
coFlectionsdeEal 
key: "variables" 
Value I{ 
bytesslist{ 
value: "\n\004v1:0\022\tvl/Assign\032\tvl/read:0" 
value: "\n\004v2:0\022\tv2/Assign\032\tv2/read:0" 
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从 上 面 的 文件 可 以 看 出 样 例 程序 中 维护 了 两 个 集合 。 一 个 是 所 有 变量 的 集合 ， 这 个 集 
合 的 名 称 为 variables。 男 外 一 个 是 可 训练 变量 的 集合 ， 名 为 trainable_variables。 在 样 例 程 
序 中 ， 这 两 个 集合 中 的 元 素 是 一 样 的 ， 都 是 变量 v1 和 v2。 它们 都 是 系统 自动 维护 的 ”。 

通过 对 MetaGraphDef 类 型 中 主要 属性 的 讲解 ， 本 小 节 已 经 介绍 了 TensorFlow 模型 持 
久 化 得 到 的 第 一 个 文件 中 的 内 容 。 除 了 持久 化 TensorFlow 计算 图 的 结构 ,持久 化 TensorFlow 
中 变量 的 取 值 也 是 非常 重要 的 一 个 部 分 。5.4.1 小 节 中 使 用 tf.Saver 得 到 的 model.ckpt 文件 
就 保存 了 所 有 变量 的 取 值 。 这 个 文件 是 通过 SSTable 格式 存储 的 ， 可 以 大 致 理 解 为 就 是 一 
个 (key，vValue) 列表 。 

model.ckpt 文件 中 列表 的 第 一 行 换 述 了 文件 的 元 信息 ， 比 如 在 这 个 文件 中 存储 的 变量 
列表 。 列 表 剩 下 的 每 一 行 保存 了 一 个 变量 的 片段 ， 变 量 片段 的 信息 是 通过 SavedSlice 
Protocol Buffer 定义 的 。SavedSlice 类 型 中 保存 了 变量 的 名 称 、 当 前 片段 的 信息 以 及 变量 取 
值 。TensroFlow 提供 了 引 train.NewCheckpointReader 类 来 查看 model.ckpt 文件 中 保存 的 变 
量 信 息 。 以 下 代码 展示 了 如 何 使 用 tftrain.NewCheckpointReader 类 。 


import tensorflow as tf 


# tf.train.NewCheckpointReader 可 以 读 取 checkpoint 文件 中 保存 的 所 有 变量 。 
reader = tf.train.NewCheckpointReader ('/path/to/model/model .ckpt') 


# 获取 所 有 变量 列表 。 这 个 是 一 个 从 变量 名 到 变量 维度 的 字典 。 

all _ Variables = reader.get Variable to shape map () 

for variable name in all _ variables : 
# variable name 为 变量 名 称 ，al1 variables [variable name] 为 变量 的 维度 。 
print variable name, all variables [variable namel] 


# 获取 名 称 为 v1 的 变量 的 取 值 。 | 


print "Value for variable vi isv, reader.get tensor (vi1") 


这 个 程序 将 输出 : 

v1 [1] | # 变量 v1 的 维度 为 [1]。 
v2 [1] # 变量 v2 的 维度 为 [1]。 
Valunen ForSvariaDles lS # 变量 v1 的 取 值 为 1。 


最 后 一 个 文件 的 名 字 是 固定 的 ， 叫 checkpoint。 这 个 文件 是 给 train.Saver 类 自动 生成 且 
目 动 维护 的 。 在 checkpoint 文件 中 维护 了 由 一 个 给 train.Saver 类 持久 化 的 所 有 TensorFlow 


(QD 第 3 章 中 有 更 加 详细 的 关于 TensorFlow 自动 维护 的 集合 的 介绍 。 
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模型 文件 的 文件 名 。 当 某 个 保存 的 TensorFlow 模型 文件 被 删除 时 ， 这 个 模型 所 对 应 的 文件 
名 也 会 从 checkpoint 文件 中 删除 。checkpoint 中 内 容 的 格式 为 CheckpointState Protocol 
Buffer， 下 面 给 出 了 CheckpointState 类 型 的 定义 。 
message CheckPointState 1{ 
string model checkpoint path = 1; 


repeated string all model checkpoint paths = 2;，; 
} 


model checkpoint path 属性 保存 了 最 新 的 TensorFlow 模型 文件 的 文件 名 。 
all model checkpoint_paths 属性 列 出 了 当前 还 没有 被 删除 的 所 有 TensorFlow 模型 文件 的 文 
件 名 。 下 面 给 出 了 通过 5.4.1 节 中 样 例 程序 生成 的 checkpoint 文件 。 


model checkpoint path: "/path/to/model/model.ckpt" 
all model checkpoint paths: "/path/to/model/model .ckpt" 


5.5 TensorFlow 最 佳 实 践 样 例 程序 


在 5.2.1 小 节 中 已 经 给 出 了 一 个 完整 的 TensorFlow 程序 来 解决 MNIST 问题 。 然 而 这 个 
程序 的 可 扩展 性 并 不 好 。 如 在 5.3 节 中 提 到 的 ， 计 算 前 同 传 播 的 水 数 需 要 将 所 有 变量 都 传 
入 ， 当 神经 网 络 的 结构 变 得 更 加 复杂 、 参 数 更 多 时 ， 程 序 可 读 性 会 变 得 非常 差 。 而 且 这 种 
方式 会 导致 程序 中 有 大 量 的 见 余 代码 ， 降 低 编 程 的 效率 。5.2.1 小 节 给 出 的 程序 的 另外 一 个 
问题 是 没有 持久 化 训练 好 的 模型 。 当 程序 退出 时 ， 训 练 好 的 模型 也 就 被 无 法 再 使 用 了 ， 这 
导致 得 到 的 模型 无 法 被 重用 。 更 严重 的 问题 是 ， 一 般 神经 网 络 模型 训练 的 时 间 都 比较 长 ， 
少 则 几 个 小 时 ， 多 则 几 天 甚至 几 周 。 如 果 在 训练 过 程 中 程序 死机 了 ， 那 么 没有 保存 训练 的 
中 间 结 果 会 浪费 大 量 的 时 间 和 资源 。 所 以 ， 在 训练 的 过 程 中 需要 每 隔 一 段 时 间 保 存 一 次 模 
型 训练 的 中 间 结 果 。 

结合 5.3 市 中 介绍 的 变量 管理 机 制 和 5.4 节 中 介绍 的 TensorFlow 模型 持久 化 机 制 ， 本 
六 中 将 介绍 一 个 TensorFlow 训练 神经 网 络 模 型 的 最 佳 实践 。 将 训练 和 测试 分 成 两 个 独立 的 
程序 ， 这 可 以 使 得 每 一 个 组 件 更 加 灵活 。 比 如 训练 神经 网 络 的 程序 可 以 持续 输出 训练 好 的 
模型 ， 而 测试 程序 可 以 每 隔 一 段 时 间 检 验 最 新 模型 的 正确 率 ， 如 果 模 型 效果 更 好 ， 则 将 这 
个 模型 提供 给 产品 使 用 。 除 了 将 不 同 功能 模块 分 开 ， 本 节 还 将 前 向 传播 的 过 程 抽 象 成 一 个 
单独 的 库 函 数 。 因 为 神经 网 络 的 前 向 传播 过 程 在 训练 和 测试 的 过 程 中 都 会 用 到 ， 所 以 通过 
库 函 数 的 方式 使 用 起 来 既 可 以 更 加 方便 ， 又 可 以 保证 训练 和 测试 过 程 中 使 用 的 前 向 传播 方 
法 一 定 是 一 致 的 。 

本 节 将 提供 重 构 之 后 的 程序 来 解决 MNIST 问题 。 重 构 之 后 的 代码 将 会 被 拆 成 3 个 程序 ， 
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第 一 个 是 mnist inference.py， 它 定义 了 前 向 传播 的 过 程 以 及 神经 网 络 中 的 参数 。 第 二 个 是 
mnist train.py， 它 定义 了 神经 网 络 的 训练 过 程 。 第 三 个 是 mnist_eval.py， 它 定义 了 测试 过 
程 。 以 下 代码 给 出 了 mnist inference.py 中 的 内 容 。 


# 一 类 Coding: Utf=8==*= 
import tensorflow as tf 


# 定义 神经 网 络 结构 相关 的 参数 。 
INPUT NODE = 784 

OUTPUT NODE = 10 

LAYER1 NODE = 500 


# 通过 tf.get variable 函数 来 获取 变量 。 在 训练 神经 网 络 时 会 创建 这 些 变 量 ， 在 测试 时 会 通 
# 过 保存 的 模型 加 载 这 些 变量 的 取 值 。 而 且 更 加 方便 的 是 ， 因 为 可 以 在 变量 加 载 时 将 滑动 平均 变量 
# 重 命 名 ， 所 以 可 以 直接 通过 同样 的 名 字 在 训练 时 使 用 变量 自身 ， 而 在 测试 时 使 用 变量 的 滑动 平 
# 均值 。 在 这 个 函数 中 也 会 将 变量 的 正则 化 损失 加 入 损失 集合 。 
def, get weight variable (shape, regularizer)’: 
weights = tf.get variable 
"weights", shape, 
initializer=tf.truncated normal initializer (stddev=0.1)) 


# 当 给 出 了 正则 化 生成 函数 时 ， 将 当前 变量 的 正则 化 损失 加 入 名 字 为 losses 的 集合 。 在 这 里 
# 使 用 了 adq to_ collection 函数 将 一 个 张 量 加 入 一 个 集合 , 而 这 个 集合 的 名 称 为 losses。 
# 这 是 自 定 义 的 集合 ， 不 在 TensorFlow 自动 管理 的 集合 列表 中 。 
if regularizer != None: 

tf.add to collection('losses'; regularizer (weights)) 
return weights 


# 定义 神经 网 络 的 前 回 传 播 过程 。 
definterence(inputetensor, reqularlzer)s 
# 声明 第 一 层 神经 网 络 的 变量 并 完成 前 向 传播 过 程 。 
with tf.variable scope('layerl'): 
# 这 里 通过 tf.get variable 或 tf.Variable 没有 本 质 区 别 ， 因 为 在 训练 或 是 测试 中 
# 没有 在 同一 个 程序 中 多 次 调用 这 个 函数 。 如 果 在 同一 个 程序 中 多 次 调用 ， 在 第 一 次 调用 
# 之 后 需要 将 reuse 参数 设置 为 True。 
weights = get weight _ Variable 
[INPUT NODE, LAYER]1 NODE], regularizer) 
biases = tf.get variable( 
"biases", [LAYER]1 NODE], 
initializer=tf.constant initializer(0.0)) 
layerl = tf.nn.relu(tf.matmul (input tensor, weights) + biases) 


# 类 似 的 声明 第 二 层 神 经 网 络 的 变量 并 完成 前 癌 传播 过 程 。 


withutfsvariablesscope (layver2 )s: 
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weights = get weight variable( 

[LAYER]1 NODE, OUTPUT NODE], regularizer) 
biases = tf.get variable( 

"biases", [OUTPUT NODE], 

initiallzer=tf,.constant initializer(0.0)) 
layer2 = tf.matmul (layerl, weights) + biases 


# 返回 最 后 前 向 传播 的 结果 。 


return layer2 


在 这 段 代码 中 定 了 神经 网 络 的 前 问 传 播 算法 。 无 论 是 训练 时 还 是 测试 时 ， 都 可 以 直接 
调用 inference 这 个 函数 ， 而 不 用 关心 具体 的 神经 网 络 结构 。 使 用 定义 好 的 前 向 传播 过 程 ， 
以 下 代码 给 出 了 神经 网 络 的 训练 程序 mnist train.py。 


el ole li ovo (eM bh sh eed» fr hoe 
import os 


ijmport tensorflow as tf 
from tensorflow.examples.tutorials.mnist import input data 


# 加 载 mnist inference.py 中 定义 的 常量 和 前 向 传播 的 函数 。 


import mnist inference 


# 配置 神经 网 络 的 参数 。 

BATCH SIZE = 100 

LEARNING RATE BASE = 0.8 
LEARNING RATE DECAY = 0.99 
REGULARAZTION RATE = 0.0001 
TRAINING STEPS = 30000 

MOVING AVERAGE DECAY = 0.99 

# 模型 保存 的 路 径 和 文件 名 。 

MODEL SAVE PATH = "/path/to/model/" 
MODEL NAME = "model.ckpt" 


def train (mnist): 
# 定义 输入 输出 placeholder。 
x = tf.placeholder! 
tf.float32, [None mnist inference.INPUT NODE], name="'x-input') 
ys =atf.pLlaceholder( 
tf.float32, [None, mnist inference.OUTPUT NODE], name='y-input') 


regularizer = tf.contrib.layers.12 regularizer (REGULARAZTION RATE) 


# 直接 使 用 mnist inference.py 中 定义 的 前 向 传播 过 程 。 


y = mnist inference.inference(x, regularizer) 
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global step = tf.Variable(0, trainable=False) 


# 和 5.2.1 小 节 样 例 中 类 似 地 定义 损失 通 数 、 学 习 率 、 滑 动 平均 操作 以 及 训练 过 程 。 


variable averages = tf.train.ExponentialMovingAverage( 


MOVING AVERAGE DECAY, global step) 


variables averages op = variable averages.apply ( 


tf tralinable variablesi();) 


cross entropy = tf.nn.sparse softmax cross entropy with logits'\ 


Vy Eargmax (yy ed) 


Cross entropy mean = tf.,.reduce mean(cross entropy) 
loss’= Cross™“entropy:mearnnt tf“add n(tf.get collection(Tossesy),) 
learning rate = tf.train.exponential aecay:( 


LEARNING RATE BASE, 

global step, 

mnist.train.num examples / BATCH SIZE, 
LEARNING RATE DECAY) 


train step = tf.train.GradientDescentOptimizer (learning rate)\ 


.minimize (loss, global step=global step) 


with tf.control dependencies ([train’' step, variables averages op]): 


traineaops= tf2noOop(name ssCrarr) 


# 初始 化 TensorFlow 持久 化 类 。 
Saver = tf.train.Saver () 
with tf.Session() as sess: 


tf. initialize all variables() .rund) 


# 在 训练 过 程 中 不 再 测试 模型 在 验证 数据 上 的 表现 ， 验 证 和 测试 的 过 程 将 会 有 一 个 独 
# 并 的 程序 来 完成 。 
for 1 inrange (TRAINING STEPS);; 
xs, ys = mnist.train.next batch (BATCH SIZE) 
J OSS ValtlenStepss sess.run([train op, loss, global step], 
feed “dict={X"* XS YYS}) 
# 每 1000 轮 保存 一 次 模型 。 
if 1 % 1000;==>0:s : ; : 
# 输出 当前 的 训练 情况 。 这 里 只 输出 了 模型 在 当前 训练 batch 上 的 损失 函 
# 数 大 小 。 通 过 损失 函数 的 大 小 可 以 大 概 了 解 训 练 的 情况 。 在 验证 数据 集 上 的 
# 正确 率 信息 会 有 一 个 单独 的 程序 来 生成 。 
print ("After %d training step(s), loss on training " 
"batch is %g. $$ (stepr loss°Vvaliue)) 
# 保存 当前 的 模型 。 注 意 这 里 给 出 了 global step 参数， 这 样 可 以 让 每 个 被 
# 保存 模型 的 文件 名 末尾 加 上 训练 的 轮 数 ， 比 如 “model .ckpt-1000” 表 示 
# 训练 1000 轮 之 后 得 到 的 模型 。 
Saver.savel 
sess, Os.path.join (MODEL SAVE PATH, MODEL NAME), 
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global step=global steP) 


def main (argv=None): 
mnist = input data.read data sets("/tmp/data", one hot=True) 
train (mnist) 


二 ANON = I LI 
tfeappEEun() 


运行 上 面 的 程序 ， 可 以 得 到 类 似 下 面 的 结果 。 


~/mnist$ python mnist train.py 

Extracting /tmp/data/train-images-idx3-ubyte.gz 

Extracting /tmp/data/train-labels-idxl-ubyte.gz 

Extracting /tmp/data/t10k-images-idx3-ubyte.gz 

Extracting /tmp/data/t10k-labels-idxl-ubyte.gz 

Afterms li Cra nln Step (te SEOSSE Onstrarning batch: ls 3320N5. 
After 1001 training step(s), loss on training batch is 0.241039. 


AEteres200Letrarining stepl(s) LosSSseonstraining. batch, lis 0s22/3 9 
Aftters S300l Crarniringe step(s) ry >Loss-“on training -batch -1s 0..138462” 
After 4001 training step(s), loss on training batch is 0.132074. 
AFtereo00letraining step(s)y 10ss on training batch is 0%L03472. 


在 新 的 训练 代码 中 ,不 再 将 训练 和 测试 跑 在 一 起 。 训 练 过 程 中 ,每 1000 轮 输 出 一 次 在 
当前 训练 batch 上 损失 函数 的 大 小 来 大 致 估计 训练 的 效果 。 在 上 面 的 程序 中 ， 每 1000 轮 保 
存 一 次 训练 好 的 模型 ， 这 样 可 以 通过 一 个 单独 的 汕 斌 程序， 更 加 方便 地 在 请 动 平均 模型 上 
做 测试 。 以 下 代码 给 出 了 测试 程序 mnist_eval.py。 

Ot 

import time 


import tensorflow as tf 
from tensorflow.examples.tutorials.mnist import input data 


# 加 载 mnist inference.py 和 mnist train.py 中 定义 的 常量 和 函数 。 
import mnist inference 
import mnist train 


# 每 10 秒 加 载 一 次 最 新 的 模型 ， 并 在 测试 数据 上 测试 最 新 模型 的 正确 率 。 
EVAL INTERVAL SECS = 10 


def evaluate (mnist): 
with tf.Graph().as default() as g: 
# 定义 输入 输出 的 格式 。 
x = 七 ff.PLaceholaez (人 
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tf.float32, [None, mnist inference.INPUT NODE], name="x~input'") 
Ve =: ti:DPlaceholdery 
tf Oa dMNones mnist inference.OUTPUT NODE], name='y-input') 
validate feed = {x: mnist.validation.images, 
y_:mnist.validation. labels} 


# 直接 通过 调用 封装 好 的 函数 来 计算 前 向 传播 的 结果 。 因 为 测试 时 不 关注 正则 化 损失 的 值 ， 
# 所 以 这 里 用 于 计算 正则 化 损失 的 函数 被 设置 为 None。 


y= “mist inference.inferencelx, None) 


# 使 用 前 问 传播 的 结果 计算 正确 率 。 如 果 需 要 对 未 知 的 样 例 进行 分 类 ， 那 么 使 用 

# tf.argmax(y，1) 就 可 以 得 到 输入 样 例 的 预测 类 别 了 。 

Correct=:prediction = tfvqual (ti :argmam (yl tf araxi( yl) 
aceuracy = tf.reduce mearn (tf oast (Correctepriediot ion etiE Loatsd2)) 


# 通过 变量 重合 名 的 方式 来 加 载 模 型 ， 这 样 在 前 向 传播 的 过 程 中 就 不 需要 调用 求 滑动 平均 . 
# 的 函数 来 获取 平均 值 了 。 这 样 就 可 以 完全 共用 mnist inference.py 中 定义 的 
# 本 回 传 播 过 程 。 
variable _ averages = tf.train.ExponentialMovingAverage ( 

mnist train.MOVING AVERAGE DECAY) 
variables to restore = variable averages.variables to restore() 
‘Saver = tf.train.Saver(variables to restore) 


# 每 隔 EBVRL_INTERVRAL_SECS 秒 调用 一 次 计算 正确 率 的 过 程 以 检测 训练 过 程 中 正确 率 的 
# 变化 。 
while True: 
with tf.Sessijon() as sess: 
# tf.train.get checkpoint state 函数 会 通过 checkpoint 文件 自动 
# 找到 目录 中 最 新 模型 的 文件 名 。 
ckpt = tf train:get checkpoint state 
mnist train.MODEL SAVE PATH) 
if ckpt and ckpt.model checkpoint Path : 
# 加 载 模型 。 
saver.restore(sess, ckpt.model checkpoint path): 
# 通过 文件 名 得 到 模型 保存 时 和 友 代 的 轮 数 。 
global step = ckpt.model checkpoint path\ 
“Split ("= SL 
accuracy score =: Sess.runl(accuracys 
feedsduot=ValidoLtomteec 
print ("After %s training step(s), validation " 
“aCcCuracy.= Sg (global :stepriacCcuracyS Core)) 
else: | 
print('No checkpoint file found') 
TOEUEN 
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time .sleep (EVAL INTERVAL SECS) 


def main (argv=None): 
mnist = input data.read data sets("/tmp/data", one hot=True) 
evaluate (mnist) 


上 面 给 出 的 mnist_eval.py 程序 会 每 隔 10 秒 运 行 一 次 ,每 次 运行 都 是 读 取 最 新 保存 的 模 
型 ,并 在 MNIST 验证 数据 集 上 计算 模型 的 正确 率 。 如 果 需 要 离线 预测 未 知 数据 的 类 别 〈 比 
如 这 个 样 例 程序 可 以 判断 手写 体 数字 图 片 中 所 包含 的 数字 ), 只 需要 将 计算 正确 率 的 部 分 改 
为 答案 输出 即 可 。 运 行 mnist eval.py 程序 可 以 得 到 类 似 下 面 的 结果 。 注 意 因为 这 个 程序 每 
10 秒 上 自动 运行 一 次 ， 而 训练 程序 不 一 定 每 10 秒 输出 一 个 新 模型 ， 所 以 在 下 面 的 结果 中 会 
发现 有 些 模型 被 测试 了 多 次 。 一 般 在 解决 真实 问题 时 ， 不 会 这 么 频繁 地 运行 评测 程序 。 


~/mnistS Python mnist eval.py 

Extracting /tmp/data/train-images-idx3-ubyte.gz 
Extracting /tmp/data/train-labels-idxl-ubyte.gz 
Extracting /tmp/data/t1i0k-images-idx3-ubyte.gz 
Extracting /tmp/data/t1i0k-labels-idxl-ubyte.gz 
After 1 training step(s), test accuracy = 0.1282 
After 1001 training step(s), validation accuracy = 
ALlteral00l1 training .stepls)y :validation accuracy = 
After 2001 training step(s)7 validation accuracy = 
After 3001 training step(s), validation accuracy = 
After 4001 training step(s), validation accuracy = 
After S001 training step(s) 

After 6001 training step(s), validation ‘accuracy = 
After 6001 training step(s) 


/ Validation accuracy = 


Ch ACEDOODOERR CE 
AD 
OO 
[Be 


; Vvalidation accuracy = 


小 结 


本 章 通 过 MNIST 数据 集 验 证 了 第 4 章 介 绍 的 神经 网 络 优化 方法 ， 同 时 也 给 出 了 使 用 
TensorFlow 解决 MNIST 问题 的 最 佳 实践 样 例 程序 。 首 先 在 本 章 的 5.1 节 中 大 致 讲解 了 
MNIST 数据 集 的 基本 情况 ， 也 介绍 了 TensorFlow 提供 的 一 个 类 让 处 理 MNIST 数据 集 更 加 
方便 。 然 后 5.2 节 给 出 了 一 个 完整 的 TensorFlow 程序 来 实现 第 4 章 中 提 到 的 所 有 优化 方法 。 
通过 此 程序 , 对 比 了 不 同 优 化 算法 对 模型 在 测试 数据 集 上 正确 率 的 影响 。 在 MNIST 数据 集 


131 


ww ai bbt.com DODODDDDOD 





TensorFlow: 实战 Google 深度 学 习 框 架 


上 ， 可 以 明显 地 观察 到 神经 网 络 的 结构 对 最 终结 果 的 影响 是 巨大 的 ， 使 用 了 激活 函数 和 隐 
藏 层 的 神经 网 络 要 远 远 好 于 没有 激活 函数 或 者 没有 隐藏 层 的 神经 网 络 。 下 面 的 第 6 章 将 介 
绍 神经 网 络 中 一 个 非常 常用 的 结构 一 一 卷 积 网 络 。 通 过 卷 积 网 络 可 以 进一步 提高 神经 网 络 
模型 在 MNIST 数据 集 上 的 正确 率 。 对 于 其 他 的 优化 方法 ， 虽 然 在 MNIST 数据 集 上 对 于 正 
确 率 的 提高 有 限 , 但 是 通过 进一步 的 分 析 , 验证 了 它们 确实 可 以 解决 第 4 章 中 提 到 的 问题 。 
这 一 节 也 提出 了 在 一 个 更 加 复杂 数据 集 上 ， 这 些 优化 算法 可 以 降低 大 约 10% 的 错误 率 。 

在 53 和 5.4 节 中 提出 了 5.2 节 中 TensorFlow 程序 实现 的 一 些 不 足 之 处 ， 并 介绍 了 
TensorFlow 的 最 佳 实践 来 解决 这 些 不 足 。5$.3 节 指 出 当 神 经 网 络 的 结构 变 得 更 加 复杂 、 变 量 
更 多 之 后 ,通过 引用 的 方式 传递 变量 会 大 大 降低 程序 的 可 读 性 。 为 了 解决 这 个 问题 ，5.3 市 
介绍 了 TensorFlow 中 利用 变量 名 称 来 创建 /获取 变量 的 机 制 ,通过 这 个 机 制 可 以 完全 将 前 问 
传播 的 过 程 抽象 出 来 ， 使 得 训练 和 测试 时 不 需要 关心 神经 网 络 的 结构 或 是 参数 。5.2 节 中 给 
出 的 训练 程序 男 外 一 个 问题 就 是 没有 将 训练 好 的 模型 持久 化 。5.4 厄 介 绍 了 TensorFlow 你 
存 模型 的 方法 以 及 TensorFlow 模型 持久 化 的 原理 和 数据 的 格式 。 综 合 5.3 和 5.4 市 中 提出 
的 问题 , 在 5.5 节 中 给 出 了 一 个 通过 TensorFlow 解决 MNIST 问题 的 最 佳 实践 样 例 程序 。 这 
个 样 例 将 神经 网 络 的 训练 、 测 试 和 使 用 拆 分 成 了 不 同 的 程序 ， 并 且 将 神经 网 络 的 前 同 传 播 
过 程 抽 象 成 了 一 个 独立 的 库 函 数 。 通 过 这 种 方式 可 以 将 训练 过 程 和 测试 、 使 用 过 程 解 帮 合 ， 
从 而 使 得 整个 流程 更 加 灵活 。 





132 


ww ai bbt.com DODODDDDOD 





在 第 5 章 中 , 通过 MNIST 数据 集 验 证 了 第 4 章 介绍 的 神经 网 络 设计 与 优化 的 方法 。 从 
实验 的 结果 可 以 看 出 ， 神 经 网 络 的 结构 会 对 神经 网 络 的 准确 率 产 生 巨 大 的 影响 。 本 章 将 介 
绍 一 个 非常 常用 的 神经 网 络 结构 卷 积 神经 网 络 (Convolutional Neural Network, CNN)。 
卷 积 神经 网 络 的 应 用 非常 广泛 ,在 自然 语言 处 理 `、 医 药 发 现 ”、 灾 难 气 候 发 现 甚至 围棋 人 
工 智能 程序 "中 都 有 应 用 。 本 章 将 主要 通过 卷 积 神经 网 络 在 图 像 识 别 上 的 应 用 来 讲解 卷 积 神 
经 网 络 的 基本 原理 以 及 如 何 使 用 TensorFlow 实现 卷 积 神 经 网 络 。 

首先 6.1 节 将 介绍 图 像 识 别 领域 解决 的 问题 以 及 图 像 识 别 领域 中 经 典 的 数据 集 。 然 后 
6.2 节 将 介绍 卷 积 神经 网 络 的 主体 思想 和 整体 架构 。 接 着 6.3 证 将 详细 讲解 卷 积 层 和 池 化 层 
的 网 络 结构 ， 以 及 TensorFlow 对 这 些 网 络 结构 的 文 持 。 在 6.4 节 中 将 通过 两 个 经 典 的 卷 积 
神经 网 络 模型 来 介绍 如 何 设计 卷 积 神经 网 络 的 架构 以 及 如 何 设 置 每 一 层 神经 网 络 的 配置 。 
这 一 节 将 通过 TensorFlow 实现 LeNet-5 模型 ， 并 介绍 TensorFlow-Slim 来 实现 更 加 复杂 也 
Inception-v3 模型 中 的 Inception 模块 ,最 后 在 6.5 市 中 将 介绍 如 何 通 过 TensorFlow 实现 卷 积 
神经 网 络 的 迁移 学 习 。 





Q 详情 请 参考 论文 : Learning Semantic Representations Using Convolutional Neural Networks for Web 
Search、 A Deep Architecture for Semantic Parsing、 A Convolutional Neural Network for Modelling Sentences 
及 Convolutional Neural Networks for Sentence Classification 

@ 参见 : Wallach I, Dzamba M, Heifets A. AtomNet: A Deep Convolutional Neural Network for Bioactivity 
Prediction in Structure-based Drug Discovery [J]. Mathematische Zeitschrift, 2015. 

@ 参见 : Liu Y, Racah E, Prabhat, et al. Application of Deep Convolutional Neural Networks for Detecting 
Extreme Weather in Climate Datasets [J]. 2016. 

由 参见: Clark C, Storkey A. Teaching Deep Convolutional Neural Networks to Play Go [J]. Eprint Arxiv, 2015. 
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6.1 图 像 识 别 问 题 简 介 及 经 典 数 据 集 


视觉 是 人 类 认识 世界 非常 重要 的 一 种 知觉 。 对 于 人 类 来 说 ， 通 过 视觉 来 识别 手写 体 数 
字 、 识 别 图 片 中 的 物体 或 者 找 出 图 片 中 人 脸 的 轮廓 都 是 非常 简单 的 任务 。 然 而 对 于 计算 机 
而 言 ， 让 计算 机 识别 图 片 中 的 内 容 就 不 是 一 件 容易 的 事情 了 。 图 像 识别 问题 希望 借助 计算 
机 程序 来 处 理 、 分 析 和 理解 图 片 中 的 内 容 ， 使 得 计算 机 可 以 从 图 片 中 目 动 识别 各 种 不 同 模 
式 的 目标 和 对 像 。 比 如 在 第 $ 章 中 介绍 的 MNIST 数据 集 就 是 通过 计算 机 来 识别 图 片 中 的 手 
写 体 数字 。 图 像 识 别 问 题 作 为 人 工 智能 的 一 个 重要 领域 ， 在 最 近 几 年 已 经 取得 了 很 多 突破 
性 的 进展 。 本 章 将 要 介绍 的 卷 积 神经 网 络 就 是 这 些 突破 性 进展 背后 的 最 主要 技术 文 持 。 
图 6-1 中 显示 了 图 像 识 别 的 主流 技术 在 MNIST 数据 集 上 的 错误 率 随 着 年 份 的 发 展 趋 势 图 。 


i.8 
1.6 入 、 "…@…K 最 近 祁 导 《K-Nearest Neighbors ) | 


pe | | 一 上 一 支持 向 量 机 (svM ) | 
3 . ~ ~ 神经 网 络 《Nerual Network ) ， 
1.2 PS 二 ] 一 ， 淮 祖 神 经 网 阅 (Convolutional Nerual Network ) | 
人 a i -人 工 标注 | | 
~ 


i1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 


年 份 





图 6-1 不 同 算法 在 MNIST 数据 集 上 最 好 表现 变化 趋势 图 


图 6-1 中 最 下 方 的 虚线 表示 人 工 标注 的 错误 率 ， 其 他 不 同 的 线段 表示 了 不 同 算法 的 钳 
误 率 。 从 图 6-1 上 可 以 看 出 ， 相 比 其 他 算法 ， 卷 积 神经 网 络 可 以 得 到 更 低 的 错误 率 。 而 且 
通过 卷 积 神经 网 络 达到 的 错误 率 已 经 非常 接近 人 工 标注 的 错误 率 了 。 在 MNIST 数据 集 的 一 
万 个 测试 数据 上 ， 最 好 的 深度 学 习 算 法 只 会 比 人 工 识 别 多 错 一 张 图 片 。 

MNIST 手写 体 识别 数据 集 是 一 个 相对 简单 的 数据 集 , 在 其 他 更 加 复杂 的 图 像 识 别 数据 


GD 数字 来 源 于 http://yann.lecun.com/exdb/mnist。 
@ 人 工 标注 错误 率 参 见 : Simard P Lecun Y Denker J] S. Efficient Pattern Recognition Using a New 
Transformation Distance [M]// Advances in Neural Information Processing Systems (NIPS 1992). 1993， 
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集 上 ， 卷 积 神经 网 络 有 更 加 突出 的 表现 。Cifar 数据 集 就 是 一 个 影响 力 很 大 的 图 像 分 类 数据 
集 。Cifar 数据 集 分 为 了 Cifar-10 和 Cifar-100 两 个 问题 ， 它 们 都 是 图 像 词 典 项 目 〈Visual 
Dictisaaa wih.G00 万 张 图 片 的 一 个 子 集 。Cifar 数据 集中 的 图 片 为 32X32 的 彩色 图 片 ， 这 
些 图 片 是 由 Alex Krizhevsky 教授 、Vinod Nair 博士 和 Geoffrey Hinton 教授 整理 的 。 

Cifar-10 问题 收集 了 来 自 10 个 不 同 种 类 的 60000 张 图 片 。 图 6-2 的 左 侧 显示 了 Cifar-10 
数据 集中 的 每 一 个 种 类 中 的 一 些 样 例 图 片 以 及 这 些 种 类 的 类 别名 称 ， 图 6-2 的 右 侧 给 出 
Cifar-10 中 一 张 飞机 的 图 像 。 因 为 图 像 的 像素 仅 为 32X32， 上 所 以 放大 之 后 图 片 是 比较 模糊 
的 ， 但 隐约 还 是 可 以 看 出 飞机 的 轮廓 。Cifar 官网 https://wwwi.cs.toronto.edu/~kriz/cifar.html 
提供 了 不 同 格式 的 Cifar 数据 集 下 载 ， 具 体 的 数据 格式 这 里 不 再 歼 述 。 





图 6-2 ”Cifar-10 数据 集 样 例 图 片 


和 MNIST 数据 集 类 似 ，Cifar-10 中 的 图 上 请 大 小 都 是 固定 的 且 每 一 张 图片 中 仅 包含 一 个 
种 类 的 实体 ”。 但 和 MNIST 相 比 ，Cifar 数据 集 最 大 的 区 别 在 于 图 片 由 黑白 变 成 的 彩色 ， 且 
分 类 的 难度 也 相对 更 高 。 在 Cifar-10 数据 集 上 , 人工 标 注 的 正确 率 大 概 为 94%”, 这 比 MNIST 
数据 集 上 的 人 工 表 现 要 低 很 多 。 图 6-3 给 出 了 MNIST 和 Cifar-10 数据 集中 比较 难以 分 类 的 


GO 更 多 关于 图 像 词典 项 目的 介绍 可 以 参考 其 官方 网 站 http://groups.csail.mit.edu/vision/TinyImagess 

@ MNIST 数据 集中 每 一 张 图 片 只 包含 一 个 数字 ; Cifar-10 和 Cifar-100 数据 集中 每 一 张 图 片 只 包含 一 个 种 
类 的 物体 。 

@) 人 工 标 注 的 准确 率 来 自 技术 博客 http://torch.ch/blog/2015/07/30/cifar.html。 


| 135 


ww albbt.com DODODDDDOD 





TensorFlow: 实战 Google 深度 学 习 框 架 


图 片 样 例 。 在 图 6-3 左 侧 的 四 张 图 片 给 出 了 Cifar-10 数据 集中 比较 难 分 类 的 图 片 ， 直 接 从 
图 片上 看 ， 人 类 也 很 难 判断 图 片上 实体 的 类 别 。 图 6-3 右 侧 的 四 张 图 片 给 出 了 MNIST 数据 
集中 难度 较 高 的 图 片 。 在 这 些 难度 高 的 图 片上 ， 人 类 还 是 可 以 有 一 个 比较 准确 的 猜测 。 目 
”前 在 Cifar-10 数据 集 上 最 好 的 图 像 识 别 算法 正确 率 为 95.59%”， 达 到 这 个 正确 率 的 算法 同 
样 使 用 了 卷 积 神经 网 络 。 





图 6-3 MNIST 和 Cifar-10 数据 集中 分 类 难度 较 高 的 样 例 


无 论 是 MNIST 数据 集 还 是 Cifar 数据 集 ， 相 比 真 实 环境 下 的 图 像 识 别 问题 ， 有 2 个 最 
大 的 问题 。 第 一 ， 现 实生 活 中 的 图 片 分 辩 率 要 远 高 于 32X32， 而 且 图 像 的 分 辨 率 也 不 会 是 
固定 的 。 第 二 ， 现 实生 活 中 的 物体 类 别 很 多 ， 无 论 是 10 种 还 是 100 种 都 远 远 不 够 ， 而 且 一 
张 图 片 中 不 会 只 出 现 一 个 种 类 的 物体 。 为 了 更 加 贴近 真实 环境 下 的 图 像 识别 问题 ， 由 斯 坦 
福 大 学 (Stanford University) 的 李 飞 飞 〈Feifei Li) 教授 带头 整理 的 ImageNet 很 大 程度 地 
解决 了 这 两 个 问题 。 

ImageNet 是 一 个 基于 WordNet 的 大 型 图 像 数 据 库 。 在 ImageNet 中 , 将 近 1500 万 图 片 
被 关联 到 了 WordNet 的 大 约 20000 个 名 词 同义词 集 上 。 目 前 每 一 个 与 ImageNet 相关 的 
WordNet 同义词 集 都 代表 了 现实 世界 中 的 一 个 实体 ,可 以 被 认为 是 分 类 问题 中 的 一 个 类 别 。 


GD 有 具体 数字 出 自 : Springenberg J T, Dosovitskiy A, Brox T, et al. Striving for Simplicity: The All Convolutional 
Net [J]. Eprint Arxiv, 2014. , 

@@ WordNet 是 一 个 大 型 英语 语义 网 ， 里 面 将 名 词 、 动 词 、 形 容 词 和 副词 整理 成 了 同义词 集 ， 并 标注 了 不 
同 同义词 集 之 间 的 关系 。WordNet 具体 信息 可 以 参考 WordNet 官网 : https://wordnet.princeton.edu/。 
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ImageNet 中 的 图 片 都 是 从 互联 网 上 把 取 下 来 的 , 并 且 通 过 亚马逊 的 人 工 标注 服务 (Amazon 
Mechanical Turk) 将 图 片 分 类 到 WordNet 的 同义词 集 上 ”。 在 ImageNet 的 图 片 中 ， 一 张 图 
片 中 可 能 出 现 多 个 同义词 集 所 代表 的 实体 。 

图 6-4 展示 了 ImageNet 中 的 一 张 图 片 ， 在 这 张 图 片上 用 几 个 矩形 框 出 了 不 同 实体 的 轮 
万。 在 物体 识别 问题 中 , 一 般 将 用 于 框 出 实体 的 矩形 称 为 bounding box。 在 图 6-4 中 总 共 可 
以 找到 四 个 实体 ， 其 中 有 两 把 椅子 、 一 个 人 和 一 条 狗 。 类 似 图 6-4 中 所 示 ，ImageNet 的 部 
分 图 片 中 的 实体 轮廓 也 被 标注 了 出 来 ， 以 用 于 更 加 精确 的 图 像 识别 。 





图 6-4 ”ImageNet 样 例 图 片 以 及 标注 出 来 的 实体 轮廓 2 


ImageNet 每 年 都 举办 图 像 识 别 相关 的 竞赛 (ImageNet Large Scale Visual Recognition 
Challenge，ILSVRC)， 而 且 每 年 的 竞赛 都 会 有 一 些 不 同 的 问题 ， 这 些 问 题 基本 涵盖 了 图 像 
识别 的 主要 研究 方向 。JImageNet 的 官网 http://www.image-net.org/challenges/LSVRC 列 出 了 
历届 ILSVRC 竞赛 的 题目 和 数据 集 。 不 同年 份 的 InageNet 比赛 提供 了 不 同 的 数据 集 ， 本 书 
将 着 重 介绍 使 用 得 最 多 的 ILSVRC2012 图 像 分 类 数据 集 。 

ILSVRC2012 图 像 分 类 数据 集 的 任务 和 Cifar 数据 集 是 基本 一 致 的 , 也 是 识别 图 像 中 的 
主要 物体 。ILSVRC2012 图 像 分 类 数据 集 包 含 了 来 目 1000 个 类 别 的 120 万 张 图 片 ， 其 中 每 
张 图 片 属 于 且 只 属于 一 个 类 别 。 因 为 ILSVRC2012 图 像 分 类 数据 集中 的 图 片 是 直接 从 互联 


G ImageNet 中 图 片 的 具体 整理 和 标注 方式 可 以 参考 ; Deng J, Dong W, Socher R, et al. ImageNet: 4 
large-scale hierarchical image database [Cl]// Computer Vision and Pattern Recognition, 2009. CVPR 2009. 
IEEE Conference on. IEEE, 2009. : | 

此 图 片 来 自 于 ImageNet 官方 网 站 。 
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网 上 扑 取 得 到 的 ， 所 以 图 片 的 大 小 从 几 千 字 市 到 几 百 万 字 节 不 等 。 

图 6-5 给 出 了 不 同 算法 在 ImageNet 图 像 分 类 数据 集 上 的 top-5 正确 率 。top-N 正确 率 指 
的 是 图 像 识 别 算法 给 出 前 N 个 答案 中 有 一 个 是 正确 的 概率 。 在 图 像 分 关 问 题 上 ， 很 多 学 术 
论文 都 将 前 N 个 答案 的 正确 率 作 为 比较 的 方法 ， 其 中 N 的 取 值 一 般 为 3 或 5。 从 图 6-5 中 
可 以 看 出 , 在 更 加 复杂 的 ImageNet 问题 上 ， 基 于 卷 积 神经 网 络 的 图 像 识 别 算 法 可 以 远 远 超 
过 人 类 的 表现 。 在 图 6-5 的 左 侧 对 比 了 传统 算法 与 深度 学 习 算 法 的 正确 率 。 从 图 中 可 以 看 
出 ， 深 度 学 习 ， 特 别 是 卷 积 神经 网 络 ， 给 图 像 识 别 问题 带 来 了 质 的 飞跃 。2013 年 之 后 ， 基 
本 上 所 有 的 研究 都 集中 到 了 深度 学 习 算法 上 。 从 6.2 节 开 始 将 具体 介绍 卷 积 神经 网 络 的 基 
本 原理 ， 以 及 如 何 通 过 TensorFlow 实现 卷 积 神经 网 络 。 
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图 6-5 不 同 算法 在 ImageNet ILSVRC2012 图 像 分 类 数据 集 上 的 正确 率 


6.2 ” 卷 积 神经 网 络 简介 


在 6.1 节 中 介绍 图 像 识 别 问题 时 ， 已 经 多 次 提 到 了 卷 积 神经 网 络 。 卷 积 神经 网 络 在 6.1 
节 中 介绍 的 所 有 图 像 分 类 数据 集 上 有 非常 突出 的 表现 。 在 前 面 的 章节 中 所 介绍 的 神经 网 络 
每 两 层 之 间 的 所 有 结 点 都 是 有 边 相 连 的 ， 所 以 本 书 称 这 种 网 络 结构 为 全 连接 层 网 络 结构 。 
为 了 将 只 包含 全 连接 层 的 神经 网 络 与 卷 积 神经 网 络 、 循 环 神经 网 络 ”区 分 开 ， 本 书 将 只 包含 


(DD 第 8 章 将 介绍 循环 神经 网 络 。 
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全 连接 层 的 神经 网 络 称 之 为 全 连接 神经 网 络 。 在 第 4 章 和 第 5 章 中 介绍 的 神经 网 络 都 为 全 
连接 神经 网 络 。 在 这 一 节 中 将 讲解 卷 积 神经 网 络 与 全 连接 神经 网 络 的 差异 ， 并 介绍 组 成 一 
个 郑 积 神经 网 络 的 基本 网 络 结构 。 图 6-6 显示 了 全 连接 神经 网 络 与 卷 积 神经 网 络 的 结构 对 
比 图 。 
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图 6-6 全 连接 神经 网 络 与 卷 积 神经 网 络 结构 示意 图 


虽然 图 6-6 中 显示 的 全 连接 神经 网 络 结构 和 卷 积 神经 网 络 的 结构 直观 上 差异 比较 大 ， 
但 实际 上 它们 的 整体 架构 是 非常 相似 的 。 从 图 6-6 中 可 以 看 出 ， 卷 积 神经 网 络 也 是 通过 一 
层 一 层 的 节点 组 织 起 来 的 。 和 全 连接 神经 网 络 一 样 ， 卷 积 神经 网 络 中 的 每 一 个 节点 都 是 一 
个 神经 元 ”。 在 全 连接 神经 网 络 中 ,每 相 邻 两 层 之 间 的 节点 都 有 边 相连 ， 于 是 一 般 会 将 每 一 
层 全 连接 层 中 的 节点 组 织 成 一 列 ， 这 样 方便 显示 连接 结构 。 而 对 于 卷 积 神经 网 络 ， 相 邻 两 
层 之 间 只 有 部 分 节点 相连 ， 为 了 展示 每 一 层 神 经 元 的 维度 ， 一 般 会 将 每 一 层 卷 积 层 的 节点 
组 织 成 一 个 三 维 矩 阵 。 

除了 结构 相似 , 卷 积 神经 网 络 的 输入 输出 以 及 训练 流程 与 全 连接 神经 网 络 也 基本 一 致 。 
以 图 像 分 类 为 例 ， 卷 积 神经 网 络 的 输入 层 就 是 图 像 的 原始 像素 ， 而 输出 层 中 的 每 一 个 节点 
代表 了 不 同类 别 的 可 信和 度 。 这 和 全 连接 神经 网 络 的 输入 输出 是 一 致 的 。 类 似 的 ， 第 4 章 中 
介绍 的 损失 函数 以 及 参数 的 优化 过 程 也 都 适用 于 卷 积 神经 网 络 。 在 后 面 的 章节 中 会 看 到 ， 
在 TensorFlow 中 训练 一 个 卷 积 神经 网 络 的 流程 和 训练 一 个 全 连接 神经 网 络 没有 任何 区 别 。 
郑 积 神经 网 络 和 全 连接 神经 网 络 的 唯一 区 别 就 在 于 神经 网 络 中 相 邻 两 层 的 连接 方式 。 在 进 
一 步 介 绍 卷 积 神经 网 络 的 连接 结构 之 前 ， 本 节 将 先 介 绍 为 什么 全 连接 神经 网 络 无 法 很 好 地 
处 理 图 像 数据 。 

使 用 全 连接 神经 网 络 处 理 图 像 的 最 大 问题 在 于 全 连接 层 的 参数 太 多 。 对 于 MNIST 数 
据 ， 每 一 张 图 片 的 大 小 是 28x28x1， 其 中 28x28 为 图 片 的 大 小 ，x1 表示 图 像 是 黑白 的 ， 只 
有 一 个 色彩 通道 。 假 设 第 一 层 隐藏 层 的 节点 数 为 500 个 ， 那 么 一 个 全 链接 层 的 神经 网 络 将 
有 28x28x500+500=392500 个 参数 。 当 图 片 更 大 时 ， 比 如 在 Cifar-10 数据 集中 ， 图 片 的 大 小 


QD 在 第 4 章 的 图 4-5 中 介绍 了 神经 元 的 结构 。 
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为 32x32x3, 其 中 32x32 表示 图 片 的 大 小 ,x3 表示 图 片 是 通过 红 绿 蓝 三 个 色彩 通道 (channel) 
表示 的 ”。 这 样 输入 层 就 有 3072 个 节点 ， 如 果 第 一 层 全 连接 层 仍然 是 500 个 节点 ， 那 么 这 
一 层 全 链接 神经 网 络 将 有 3072x500+500x150 万 个 参数 。 参 数 增多 除了 导致 计算 速度 减 慢 ， 
还 很 容易 导致 过 拟 合 问题 。 所 以 需要 一 个 更 合理 的 神经 网 络 结构 来 有 效 地 减少 神经 网 络 中 
参数 个 数 。 卷 积 神经 网 络 就 可 以 达到 这 个 目的 。 

图 6-7 给 出 了 一 个 更 加 有 具体 的 卷 积 神 经 网 络 架 构图 。 


卷 积 层 1 池 化 层 1 卷 积 层 2 池 化 层 2 ”全 连接 层 1 全 连接 层 2 
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图 6-7 ”用 于 图 像 分 类 问题 的 一 种 卷 积 神经 网 络 以 构图 


在 卷 积 神经 网 络 的 前 几 层 中 ， 每 一 层 的 节点 都 被 组 织 成 一 个 三 维 矩阵 。 比 如 处 理 
Cifar-10 数据 集中 的 图 片 时 , 可 以 将 输入 层 组 织 成 一 个 32x32x3 的 三 维和 矩阵 。 图 6-7 中 虚线 
部 分 展示 了 卷 积 神经 网 络 的 一 个 连接 示意 图 ， 从 图 中 可 以 看 出 卷 积 神经 网 络 中 前 几 层 中 每 
一 个 节点 只 和 上 一 层 中 部 分 的 节点 相连 。 卷 积 神经 网 络 的 具体 连接 方式 将 在 6.3 节 中 介绍 。 
一 个 卷 积 神经 网 络 主要 由 以 下 5 种 结构 组 成 : 

1. 输入 层 。 输 入 层 是 整个 神经 网 络 的 输入 ， 在 处 理 图 像 的 卷 积 神经 网 络 中 ， 它 一 般 代 
表 了 一 张 图 片 的 像素 矩阵 。 比 如 在 图 6-7 中 ， 最 左 侧 的 三 维 矩 阵 就 可 以 代表 一 张 图 片 。 其 
中 三 维和 矩阵 的 长 和 宽 代 表 了 图 像 的 大 小 ， 而 三 维 矩 阵 的 深度 代表 了 图 像 的 色彩 通道 
(Cchannel)。 比 如 黑白 图 片 的 深度 为 1， 而 在 RGB 色彩 模式 下 ; 图 像 的 深度 为 3。 从 输入 层 
开始 ， 卷 积 神经 网 络 通过 不 同 的 神经 网 络 结构 将 上 一 层 的 三 维 矩阵 转化 为 下 一 层 的 三 维 抵 
阵 ， 直 到 最 后 的 全 连接 层 。 

2. 卷 积 层 。 从 名 字 就 可 以 看 出 ， 卷 积 层 是 一 个 卷 积 神经 网 络 中 最 为 重要 的 部 分 。 和 传 
统 全 连接 层 不 同 ， 卷 积 层 中 每 一 个 节点 的 输入 只 是 上 一 层 神经 网 络 的 一 小 块 ， 这 个 小 块 常 
用 的 大 小 有 3X3 或 者 SX5。 卷 积 层 试 图 将 神经 网 络 中 的 每 一 小 块 进 行 更 加 深入 地 分 析 从 


Q@ 在 RGB 色彩 模式 下 , 一 幅 完 整 的 图 像 是 由 红色 、 绿 色 和 蓝 色 3 个 通道 组 成 的 。 因 为 每 个 通道 在 每 个 像 
素 点 上 都 有 亮度 值 ， 所 以 整个 图 片 就 可 以 表示 成 一 个 三 维 矩 阵 。 
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而 得 到 抽象 程度 更 高 的 特征 。 一 般 来 说 ， 通 过 卷 积 层 处 理 过 的 节点 矩阵 会 变 得 更 深 ， 所 以 
在 图 6-7 中 可 以 看 到 经 过 卷 积 层 之 后 的 节点 矩阵 的 深度 会 增加 。 

3. 池 化 层 (Pooling)。 池 化 层 神 经 网 络 不 会 改变 三 维和 矩阵 的 深度 ， 但 是 它 可 以 缩小 矩 
阵 的 大 小 。 池 化 操作 可 以 认为 是 将 一 张 分 辨 率 较 高 的 图 片 转化 为 分 辨 率 较 低 的 图 片 。 通 过 
池 化 层 ， 可 以 进一步 缩小 最 后 全 连接 层 中 节点 的 个 数 ， 从 而 达到 减少 整个 神经 网 络 中 参数 
的 目的 。 

4. 全 连接 层 。 如 图 6-7 所 示 ， 在 经 过 多 轮 卷 积 层 和 池 化 层 的 处 理 之 后 ， 在 卷 积 神经 网 
络 的 最 后 一 般 会 是 由 1 到 2 个 全 连接 层 来 给 出 最 后 的 分 类 结果 。 经 过 几 轮 卷 积 层 和 池 化 层 
的 处 理 之 后 ， 可 以 认为 图 像 中 的 信息 已 经 被 抽象 成 了 信息 含量 更 高 的 特征 。 我 们 可 以 将 卷 
积 层 和 池 化 层 看 成 自动 图 像 特征 提取 的 过 程 。 在 特征 提取 完成 之 后 ， 仍 然 需 要 使 用 全 连接 
层 来 完成 分 类 任务 。 

5. Softmax 层 。 和 第 4 章 中 介绍 的 一 样 ，Softmax 层 主 要 用 于 分 类 问题 。 通 过 Softmax 
层 ， 可 以 得 到 当前 样 例 属于 不 同 种 类 的 概率 分 布 情况 。 

在 卷 积 神经 网 络 中 使 用 到 的 输入 层 、 全 连接 层 和 Softmax 层 在 第 4 章 中 都 有 过 详细 的 
介绍 ， 这 里 不 再 著述 。 在 下 面 的 6.3 节 中 将 详细 介绍 卷 积 神经 网 络 中 特殊 的 两 个 网 络 结构 
卷 积 层 和 池 化 层 。 





6.3 ” 郑 积 神经 网 络 吊 用 结构 


6.2 节 已 经 大 致 介绍 了 卷 积 层 和 池 化 层 的 概念 ， 在 本 节 中 将 具体 介绍 这 两 种 网 络 结构 。 
在 下 面 的 两 个 小 节 中 将 分 别 介绍 卷 积 层 和 池 化 层 的 网 络 结构 以 及 前 同 传播 的 过 程 ， 并 通过 
TensorFlow 实现 这 些 网 络 结构 。 本 书 中 将 不 会 介绍 优化 卷 积 神经 网 络 的 数学 公式 ， 但 通过 
TensorFlow 可 以 很 容易 地 完成 优化 的 过 程 。 


6.3.1 ” 卷 积 层 


本 小 节 将 详细 介绍 卷 积 层 的 结构 以 及 其 前 同 传 播 的 算法 。 图 6-8 中 显示 了 卷 积 层 神 经 
网 络 结构 中 最 重要 的 部 分 ， 这 个 部 分 被 称 之 为 过 滤器 (filter) 或 者 内 核 (kernel)。 因 为 
TensorFlow 文档 中 将 这 个 结构 称 之 为 过 滤器 (filter)， 所 以 在 本 书 中 将 统称 这 个 结构 为 过 滤 
器 。 如 图 6-8 所 示 ， 过 滤器 可 以 将 当前 层 神 经 网 络 上 的 一 个 子 节点 矩阵 转化 为 下 一 层 神 经 
网 络 上 的 一 个 单位 节点 天 阵 。 单 位 节点 矩阵 指 的 是 一 个 长 和 宽 都 为 1， 但 深度 不 限 的 节点 
矩阵 。 
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图 6-8” 卷 积 层 过 滤器 (filter) 结构 示意 图 ? 


在 一 个 卷 积 层 中 ， 过 滤器 所 处 理 的 节点 矩阵 的 长 和 宽 都 是 由 人 工 指定 的 ， 这 个 节点 矩 
阵 的 尺寸 也 被 称 之 为 过 滤器 的 尺寸 。 常 用 的 过 滤器 尺寸 有 3X3 或 5X5。 因 为 过 滤器 处 理 
的 矩阵 深度 和 当前 层 神 经 网 络 节 点 矩阵 的 深度 是 一 致 的 ， 所 以 虽然 节点 矩阵 是 三 维 的， 但 
过 滤器 的 尺寸 只 需要 指定 两 个 维度 。 过 滤器 中 另外 一 个 需要 人 工 指 定 的 设置 是 处 理 得 到 的 
单位 节点 矩阵 的 深度 ， 这 个 设置 称 为 过 滤器 的 深度 。 注 意 过 滤器 的 尺寸 指 的 是 一 个 过 滤器 
输入 市 点 矩阵 的 大 小 ， 而 深度 指 的 是 输出 单位 节点 和 矩阵 的 深度 。 如 图 6-8 所 示 ， 左 侧 小 拢 
阵 的 尺寸 为 过 滤器 的 尺寸 ， 而 右 侧 单位 矩阵 的 深度 为 过 滤器 的 深度 。6.4 节 将 通过 一 些 经 典 
卷 积 神经 网 络 结构 来 了 解 如 何 设置 每 一 层 卷 积 层 过 滤器 的 尺寸 和 深度 。 

如 图 6-8 所 示 ， 过 滤器 的 前 同 传播 过 程 就 是 通过 左 侧 小 矩阵 中 的 节点 计算 出 右 侧 单 位 
矩阵 中 节点 的 过 程 。 为 了 直观 地 解释 过 滤器 的 前 疝 传 播 过 程 ， 在 下 面 的 篇 幅 中 将 给 出 一 个 
具体 的 样 例 。 在 这 个 样 例 中 将 展示 如 何 通 过 过 滤器 将 一 个 2X2X3 的 节点 矩阵 变化 为 一 个 
1X1X5 的 单位 节点 抢 阵 。 一 个 过 滤器 的 前 向 传播 过 程 和 全 连接 层 相 似 ， 它 总 共 需 要 
2x2x3x5+5=65 个 参数 ， 其 中 最 后 的 +5 为 偏 置 项 参数 的 个 数 。 假 设 使 用 wi , ;来 表示 对 于 输 
出 单位 节点 矩阵 中 的 第 i 个 节点 ， 过 滤器 输入 节点 (x,y,z) 的 权重 ， 使 用 5 表示 第 i 个 输出 
市 点 对 应 的 偏 置 项 参数 ， 那 么 单位 矩阵 中 的 第 i 个 节点 的 取 值 g(D) 为 : 

好  . 鸟 
Bs (> D> mp st 


x=] y=] z=] 

其 中 a.y; 为 过 滤器 中 节点 (x,y,z) 的 取 值 ，f 为 激活 函数 。 图 6-9 展示 了 在 给 定 a，w" 和 
加 的 情况 下 ， 使 用 ReLU 作为 激活 函数 时 g(0) 的 计算 过 程 。 在 图 6-9 的 左 侧 给 出 了 a 和 wi 
的 取 值 ， 这 里 通过 3 个 二 维 矩 阵 来 表示 一 个 三 维和 矩阵 的 取 值 ， 其 中 每 一 个 二 维 矩 阵 表 示 三 
维和 矩阵 在 某 一 个 深度 上 的 取 值 。 图 6-9 中 。 符号 表示 点 积 ， 也 就 是 矩阵 中 对 应 元 素 乘 积 的 
和 。 图 6-9 的 右 侧 显示 了 g(0) 的 计算 过 程 。 如 果 给 出 wi! 到 wi 和 bi 到 pr， 那么 也 可 以 类 似 
地 计算 出 g(1) 到 g(4) 的 取 值 。 如 果 将 a 和 w 组 织 成 两 个 向 量 ， 那 么 一 个 过 滤器 的 计算 过 程 


(D 此 图 片 来 自 斯 坦 福 大 学 在 线 卷 积 神经 网 络 教程 http://cs231n.github.io/convolutional-networks/。 
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完全 可 以 通过 第 3 章 中 介绍 的 向 量 乘 法 来 完成 。 


9g9(0)=f{[1 x2+2x0+0x1+(-1)x (~1)]+ 
[2 x (-2)+1x2+(-1)x0+(-2)x1]+ 


[ix0+0x1+2x(-1)+1x(-1)]+1} 
=f{3+(= 人 + (~3) +1} 
=f{=3}=0 





图 6-9 ”使 用 过 滤器 计算 g(0) 取 值 的 过 程 示意 图 


上 面 的 样 例 已 经 介绍 了 在 卷 积 层 中 计算 一 个 过 沽 圳 的 前 癌 传 播 过 程 。 卷 积 层 结构 的 前 
向 传播 过 程 就 是 通过 将 一 个 过 小 器 从 神经 网 络 当前 层 的 左上 角 移动 到 右 下 角 ， 并 且 在 移动 
中 计算 每 一 个 对 应 的 单位 矩阵 得 到 的 。 图 6-10 展示 了 卷 积 层 结构 前 向 传播 的 过 程 。 为 了 更 
好 地 可 视 化 过 滤器 的 移动 过 程 ， 图 6-10 中 使 用 的 市 点 矩阵 深度 都 为 1。 在 图 6-10 中 ， 展 示 
了 在 3X3 矩阵 上 使 用 2X2 过 渡 占 的 苍 积 层 前 同 传 播 过 程 。 在 这 个 过 程 中 ， 首 先 将 这 个 过 
滤器 用 于 左上 角子 矩阵 ， 然 后 移动 到 左下 和 角 和 给 了 省 ， 再 到 右上 和 角 矩 了 泗 ， 最 后 到 右 下 和 角 和 矩阵 。 
过 滤器 每 移动 一 次 ， 可 以 计算 得 到 一 个 值 〈 当 深度 为 k 时 会 计算 出 k 个 值 )。 将 这 些 数 值 拼 
接 成 一 个 新 的 和 矩阵， 就 完成 了 疮 积 层 前 同 传 播 的 过 程 。 图 6-10 的 右 侧 显示 了 过 滤器 在 移动 
过 程 中 计算 得 到 的 结果 与 新 矩阵 中 节 反 的 对 应 关系 。 








| 


图 6-10” 卷 积 层 前 问 传 播 过 程 示 意 


当 过 滤器 的 大 小 不 为 1X1 时 , 卷 积 层 前 同 传 播 得 到 的 矩阵 的 尺寸 要 小 于 当前 层 和 矩阵 的 
尺寸 。 如 图 6-10 所 示 ， 当 前 层 和 矩阵 的 大 小 为 3X3〔 图 6-10 左 侧 和 矩阵)， 而 通过 卷 积 层 前 向 
传播 算法 之 后 ， 得 到 的 矩阵 大 小 为 2X2 (图 6-10 右 侧 矩阵 )。 为 了 避免 尺寸 的 变化 ， 可 以 
在 当前 层 矩 阵 的 边界 上 加 入 全 0 填充 〈zero-padding)。 这 样 可 以 使 得 卷 积 层 前 向 传播 结果 
矩阵 的 大 小 和 当前 层 矩 阵 保 持 一 致 。 图 6-11 显示 了 使 用 全 0 填充 后 卷 积 层 前 向 传播 过 程 示 
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意图 。 从 图 中 可 以 看 出 ， 加 入 一 层 全 0 填充 后 ， 得 到 的 结构 矩阵 大 小 吏 为 3X3 了 。 





图 6-11 使 用 了 全 0 填充 〈zero-padding) 的 卷 积 层 前 向 传播 示意 图 ” 


除了 使 用 全 0 填充 ， 还 可 以 通过 设置 过 滤器 移动 的 步 长 来 调整 结果 和 矩阵 的 大 小 。 在 图 
6-10 和 图 6-11 中 ,过 滤器 每 次 都 只 移动 一 格 。 图 6-12 中 显示 了 当 移 动 步 长 为 2 且 使 用 全 0 
填充 时 ， 卷 积 层 前 同 传 播 的 过 程 。 





从 图 6-12 上 可 以 看 出 ， 当 长 和 宽 的 步 长 均 为 2 时 ， 过 滤器 每 隔 2 步 计算 一 次 结果 ， 所 
以 得 到 的 结果 和 矩阵 的 长 和 宽 也 就 都 只 有 原来 的 一 半 。 下 面 的 公式 给 出 了 在 同时 使 用 全 0 填 
充 时 结果 和 矩阵 的 大 小 。 
Outiongth =| inrength | Stridelength | 
Outwidth = FE inwidth / stridewidtn | 


其 中 outhssn 表示 输出 层 矩阵 的 长 度 ， 它 等 于 输入 层 矩 阵 长 度 除 以 长 度 方向 上 的 步 长 的 


Q@ 此 处 全 0 填充 的 方式 和 TensorFlow 中 实现 的 方式 略 有 不 同 ， 但 是 原理 是 一 样 的 。 
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向 上 取 整 值 。 类 似 的 ，outwidan 表示 输出 层 和 矩阵 的 宽度 ， 它 等 于 输入 层 和 矩阵 宽度 除 以 宽度 方 
向 上 的 步 长 的 向 上 取 整 值 。 如 果 不 使 用 全 0 填充 ， 下 面 的 公式 给 出 了 结果 矩阵 的 大 小 。 
Outlength = | (mength — filtenengn +1)/ str idelengh | 
OUutwidth = | (inwiam — filterwiadn +1)/ stridewiarn | 
在 图 6-10、 图 6-11 以 及 图 6-12 中 ， 只 讲解 了 移动 过 滤器 的 方式 ， 没 有 涉及 到 过 滤器 
中 的 参数 如 何 设 定 ， 所 以 在 这 些 图 片 中 结果 矩阵 中 并 没有 填 上 有 具体 的 值 。 在 卷 积 神经 网 络 
中 ， 每 一 个 卷 积 层 中 使 用 的 过 滤器 中 的 参数 都 是 一 样 的 。 这 是 卷 积 神经 网 络 一 个 非常 重要 
的 性 质 。 从 直观 上 理解 ， 共 享 过 滤器 的 参数 可 以 使 得 图 像 上 的 内 容 不 受 位 置 的 有 影响。 以 
MNIST 手写 体 数 字 识 别 为 例 ， 无 论 数 字 “1” 出 现在 左上 和 角 还 是 右 下 角 ， 图 片 的 种 类 都 是 
不 变 的 。 因 为 在 左上 角 和 右 下 角 使 用 的 过 滤器 参数 相同 ， 所 以 通过 卷 积 层 之 后 无 论 数 字 在 
图 像 上 的 哪个 位 置 ， 得 到 的 结果 都 一 样 。 
共享 每 一 个 卷 积 层 中 过 滤器 中 的 参数 可 以 巨 幅 减 少 神经 网 络 上 的 参数 。 以 Cifar-10 问 
题 为 例 ， 输 入 层 矩 阵 的 维度 是 32x32x3。 假 设 第 一 层 卷 积 层 使 用 尺寸 为 Sx$， 深 度 为 16 的 
过 滤器 ， 那 么 这 个 卷 积 层 的 参数 个 数 为 5x5x3x16+16=1216 个 。6.2 节 中 提 到 过 ， 使 用 500 
个 隐藏 节点 的 全 连接 层 将 有 1.5 百 万 个 参数 。 相 比 之 下 ， 卷 积 层 的 参数 个 数 要 远 远 小 于 全 
连接 层 。 而 且 卷 积 层 的 参数 个 数 和 图 片 的 大 小 无 关 ， 它 只 和 过 滤器 的 尺寸 、 深 度 以 及 当前 
层 节 点 矩阵 的 深度 有 关 。 这 使 得 卷 积 神经 网 络 可 以 很 好 地 扩展 到 更 大 的 图 像 数 据 上 。 
结合 过 滤器 的 使 用 方法 和 参数 共享 的 机 制 ， 图 6-13 给 出 了 使 用 了 全 0 填充 、 步 长 为 2 
的 卷 积 层 前 同 传播 的 计算 流程 。 





图 6-13 ” 卷 积 层 前 同 传播 过 程 样 例 图 


图 6-13 给 出 了 过 滤器 上 权重 的 取 值 以 及 偏 置 项 的 取 值 ,通过 图 6-9 中 所 示 的 计算 方法 ， 
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可 以 得 到 每 一 个 格子 的 具体 取 值 。 下 面 的 公式 给 出 了 左上 和 角 格 子 取 值 的 计算 方法 ， 其 他 格 
子 可 以 依次 类 推 。 
REL U(xL 4 OWL +0x0414241= ReLUG)S3 
TensorFlow 对 卷 积 神经 网 络 提供 了 非常 好 的 支持 ， 下 面 的 程序 实现 了 一 个 卷 积 层 的 前 
回 传 播 过 程 。 从 以 下 代码 可 以 看 出 ， 通 过 TensorFlow 实现 卷 积 层 是 非常 方便 的 。 


# 通过 tf .get variable 的 方式 创建 过 滤器 的 权重 变量 和 偏 置 项 变量 。 上 面 介 绍 了 卷 积 层 
# 的 参数 个 数 只 和 过 滤器 的 尺寸 、 深 度 以 及 当前 层 节 点 矩阵 的 深度 有 关 ， 所 以 这 里 声明 的 参数 变 
# 量 是 一 个 四 维 矩 阵 ， 前 面 两 个 维度 代表 了 过 滤器 的 太 寸 ， 第 三 个 维度 表示 当前 层 的 深度 ， 第 四 
# 个 维度 表示 过 滤器 的 深度 。 
FulterewWeLght = ttrqet varliabled 
SWE hes na 
initializer=tf.truncated normal initializer(stddev=0.E):) 
# 和 卷 积 层 的 权重 类 似 ， 当 前 层 矩 阵 上 不 同位 置 的 偏 置 项 也 是 共 译 的 ， 所 以 总 共有 下 一 层 深度 个 不 
# 同 的 偏 置 项 。 本 样 例 代码 中 16 为 过 滤器 的 深度 ， 也 是 神经 网 络 中 下 一 层 氮 息 阵 的 深度 。 
biasese=abt get VarnaDJ ERA 


‘biasesasll6ly initializer=tfseonstant Linitiallizer(0al)d 


# tf .nn.conv2d 提供 了 一 个 非常 方便 的 函数 来 实现 卷 积 层 前 向 传播 的 算法 。 这 个 函数 的 第 一 个 输 
# 入 为 当前 层 的 节点 和 矩阵。 注意 这 个 和 矩阵 是 一 个 四 维和 矩阵 ， 后 面 三 个 维度 对 应 一 个 节点 矩阵 ， 第 一 
# 维 对 应 一 个 输入 batch。 比如 在 输入 层 ， input [0, :，:，:] 表 示 第 一 张 图 片 , input [1,:,:,:] 
# 表示 第 二 张 图 片 ， 以 此 类 推 。tf .nn.conv2d 第 二 个 参数 提供 了 卷 积 层 的 权重 ， 第 三 个 参数 为 不 
# 同 维度 上 的 步 长 。 虽 然 第 三 个 参数 提供 的 是 一 个 长 度 为 4 的 数组 ， 但 是 第 一 维和 最 后 一 维 的 数字 
# 要 求 一 定 是 1。 这 是 因为 卷 积 层 的 步 长 只 对 矩阵 的 长 和 宽 有 效 。 最 后 一 个 参数 是 填 序 (padding) 
# 的 方法 ，TensorFlow 中 提供 SAME 或 是 VALID 两 种 选择 。 其 中 SAME 表示 添加 全 0 填充 〈 如 
# 图 6-11 所 示 ),“VALID” 表 示 不 添加 《如 图 6-10 所 示 )。 
GONVe = tf enNNneeoOnNnv2a 

inputy filter weight, stridesa[l, 1 17 1]; padding= "SAME ') 


# tf.nn.bias_ add 提供 了 一 个 方便 的 函数 给 每 一 个 节点 加 上 偏 置 项 。 注 意 这 里 不 能 直接 使 用 加 
# 法 ， 因 为 矩阵 上 不 同位 置 上 的 节点 都 需要 加 上 同样 的 偏 置 项 。 如 图 6-13 所 示 ， 虽 然 下 一 层 神 
# 经 网 络 的 大 小 为 2x2， 但 是 偏 置 项 只 有 一 个 数 《〈 因 为 深度 为 1)， 而 2x2 矩阵 中 的 每 一 个 值 都 需 
# 要 加 上 这 个 偏 置 项 。 z 

bias =°tf.nn.blias add(conv, biases) 

# 将 计算 结果 通过 ReLU 激活 函数 完成 去 线性 化 。 


actived conv = tf.nn.relu (bias) 


6.3.2” 池 化 层 
6.2 节 介绍 过 卷 积 神经 网 络 的 大 致 架构 。 从 图 6-7 中 可 以 看 出 ， 在 卷 积 层 之 间 往 往 会 加 
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上 一 个 池 化 层 (pooling layer)。 池 化 层 可 以 非常 有 效 地 缩小 矩阵 的 尺寸 ， 从 而 减少 最 后 全 连 
接 层 中 的 参数 。 使 用 池 化 层 既 可 以 加 快 计算 速度 也 有 防止 过 拟 合 问题 的 作用 ”。 

和 6.3.1 小 节 中 介绍 的 郑 积 层 关 似 , 池 化 层 前 内 传播 的 过 程 也 是 通过 移动 一 个 类 似 过 滤 
器 的 结构 完成 的 。 不 过 池 化 层 过 滤器 中 的 计算 不 是 节点 的 加 权 和 ， 而 是 采用 更 加 简单 的 最 
大 值 或 者 平均 值 运 算 。 使 用 最 大 值 操作 的 池 化 层 被 称 之 为 最 大 池 化 层 (max pooling)， 这 是 
被 使 用 得 最 多 的 池 化 层 结构 。 使 用 平均 值 操作 的 池 化 层 被 称 之 为 平均 池 化 层 (average 
pooling)。 其 他 池 化 层 在 实践 中 使 用 的 比较 少 ， 本 书 不 做 过 多 的 介绍 。 

与 卷 积 层 的 过 滤器 类 似 ， 池 化 层 的 过 滤器 也 需要 人 工 设 定 过 滤器 的 尺寸 、 是 否 使 用 全 
0 填充 以 及 过 滤器 移动 的 步 长 等 设置 ， 而 且 这 些 设置 的 意义 也 是 一 样 的 。 卷 积 层 和 池 化 层 
中 过 滤器 移动 的 方式 是 相似 的 ， 唯 一 的 区 别 在 于 卷 积 层 使 用 的 过 滤器 是 横 跨 整个 深度 的 ， 
而 池 化 层 使 用 的 过 滤器 只 影 啊 一 个 深度 上 的 太 点 。 所 以 池 化 层 的 过 滤器 除了 在 长 和 宽 两 个 
维度 移动 之 外 ， 它 还 需要 在 深度 这 个 维度 移动 。 图 6-14 展示 了 一 个 最 大 池 化 层 前 向 传播 计 
算 过程 。 





图 6-14 3X3X2 节点 矩阵 经 过 全 0 填充 且 步 长 为 2 的 最 大 池 化 层 前 向 传播 过 程 示意 图 。 


QW 池 化 层 主要 用 于 减 小 矩阵 的 长 和 宽 。 虽 然 池 化 层 也 可 以 减 小 矩阵 深度 ， 但 是 实践 中 一 般 不 会 这 样 使 用 。 

@ 有 研究 指出 池 化 层 对 模型 效果 的 影响 不 大 ,具体 细节 可 以 参考 : Springenberg JT Dosovitskiy A, Brox TT, 
et al. Striving for Simplicity: The 411 Convolutional Net []]. Eprint Arxiv 2014. 不 过 目前 主流 的 卷 积 神经 
络 模型 中 都 含有 池 化 层 。 
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在 图 6-14 中 ， 不 同 颜色 或 者 不 同 线段 〈 虚 线 或 者 实 线 ) 代表 了 不 同 的 池 化 层 过 滤器 。 
从 图 6-14 中 可 以 看 出 ， 池 化 层 的 过 滤器 除了 在 长 和 宽 的 维度 上 移动 ， 它 还 需要 在 深度 的 维 
度 上 移动 。 下 面 的 TensorFlow 程序 实现 了 最 大 池 化 层 的 前 向 传播 算法 。 

大 下 二 PT max pool 实现 了 最 大 池 化 层 的 前 向 传播 过 程 ， 它 的 参数 和 tf.nn.conv2d 函数 类 似 。 

# ksize 提供 了 过 滤器 的 尺寸 ，strides 提供 了 步 长 信息 ，padding 提供 了 是 否 使 用 全 0 填充 。 

pool:= tf.nn.max pool(actived convy ksize=[1, 3, 3, 1]) 

strides=[1, 2, 2, 1], padding="SAME') 

对 比 池 化 层 和 卷 积 层 前 同 传 播 在 TensorFlow 中 的 实现 ， 可 以 发 现 函 数 的 参数 形式 是 相 
似 的 。 在 tnn.max_pool 函数 中 ， 首 先 需 要 传 入 当前 层 的 节点 矩阵 ， 这 个 矩阵 是 一 个 四 维和 矩 
阵 ， 格式 和 tf.nn.conv2d 函数 中 的 第 一 个 参数 一 致 。 第 二 个 参数 为 过 小 器 的 尺寸 。 虽 然 给 出 
的 是 一 个 长 度 为 4 的 一 维 数 组 ， 但 是 这 个 数组 的 第 一 个 和 最 后 一 个 数 必须 为 1。 这 意味 看 
池 化 层 的 过 滤器 是 不 可 以 跨 不 同 输入 样 例 或 者 节点 矩阵 深度 的 。 在 实际 应 用 中 使 用 得 最 多 
的 池 化 层 过 滤器 尺寸 为 [1,2,2,1] 或 者 [1,3,3,1]。 

tf.nn.max pool 函数 的 第 三 个 参数 为 步 长 ， 它 和 tf.nn.conv2d 函数 中 步 长 的 意义 是 一 样 
的 ， 而 且 第 一 维和 最 后 一 维 也 只 能 为 1。 这 意味 着 在 TensorFlow 中 ， 池 化 层 不 能 减少 节点 
矩阵 的 深度 或 者 输入 样 例 的 个 数 。tf.nn.max pool 函数 的 最 后 一 个 参数 指定 了 是 否 使 用 全 0 
填充 。 这 个 参数 也 只 有 两 种 取 值 一 一 VALID 或 者 SAME， 其 中 VALID 表示 不 使 用 全 0 十 
充 ，SAME 表示 使 用 全 0 填充 。TensorFlow 还 提供 了 tf.nn.avg pool 来 实现 平均 池 化 层 。 
tfnn.avg pool 函数 的 调用 格式 和 tf.nn.max pool 函数 是 一 致 的 。 


6.4 ”经 典 卷 积 网 络 模 型 


在 6.3 小 节 中 介绍 了 卷 积 神经 网 络 特有 的 两 种 网 络 结构 一 一 郑 积 层 和 池 化 层 。 然 而 ， 
通过 这 些 网 络 结构 任意 组 合 得 到 的 神经 网 络 有 无 限 多 种 ， 怎 样 的 神经 网 络 更 有 可 能 解决 真 
实 的 图 像 处 理 问 题 呢 ? 这 一 节 将 介绍 一 些 经 典 的 卷 积 神经 网 络 的 网 络 结构 。 通 过 这 些 经 典 
的 卷 积 神经 网 络 的 网 络 结构 可 以 总 结 出 卷 积 神经 网 络 结构 设计 的 一 些 模 式 。 在 6.4.1 小 节 中 
将 具体 介绍 LeNet-5 模型 ， 并 给 出 一 个 完整 的 TensorFlow 程序 来 实现 LeNet-5 模型 。 通 过 
这 个 模型 ,将 给 出 卷 积 神经 网 络 结构 设计 的 一 个 通用 模式 。 然 后 6.4.2 小 节 将 介绍 设计 郑 积 
神经 网 络 结构 的 另外 一 种 思路 一 一 Inception 模型 。 这 个 小 节 将 简单 介绍 TensorFlow-Slim 工 
具 ， 并 通过 这 个 工具 实现 谷歌 提出 的 Inception-v3 模型 中 的 一 个 模块 。 
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6.4.1 LeNet-5 模型 


LeNet-5 模型 是 Yann LeCun 教授 于 1998 年 在 论文 Gradient-based learning applied to 
document recognition 中 提出 的 ， 它 是 第 一 个 成 功 应 用 于 数字 识别 问题 的 卷 积 神经 网 络 。 在 
MNIST 数据 集 上 ，LeNet-5 模型 可 以 达到 大 约 99.2% 的 正确 率 。LeNet-5 模型 总 共有 7 层 ， 
图 6-15 展示 了 LeNet-5 模型 的 架构 。 
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图 6-15 ”LeNet-5 模型 结构 图 2 


在 下 面 的 篇 幅 中 将 详细 介绍 LeNet-5 模型 每 一 层 的 结构 2 。 

第 一 层 ， 卷 积 层 

这 一 层 的 输入 就 是 原始 的 图 像 像素 ，LeNet-5 模型 接受 的 输入 层 大 小 为 32x32x1。 第 一 
个 卷 积 层 过 滤器 的 尺寸 为 Sx$， 深 度 为 6， 不 使 用 全 0 填充 ， 步 长 为 1。 因 为 没有 使 用 全 0 
填充 ， 所 以 这 一 层 的 输出 的 尺寸 为 32-5+1=28， 深 度 为 6。 这 一 个 卷 积 层 总 共有 
5x5x1x6+6=156 个 参数 ， 其 中 6 个 为 偏 置 项 参数 。 因 为 下 一 层 的 节点 矩阵 有 28x28x6=4704 
个 节点 ， 每 个 节点 和 5x5=25 个 当前 层 节 点 相连 ， 所 以 本 层 卷 积 层 总 共有 
4704x(25+1)=122304 个 连接 。 

第 二 层 ， 池 化 层 

这 一 层 的 输入 为 第 一 层 的 输出 ， 是 一 个 28x28x6 的 节点 矩阵 。 本 层 采 用 的 过 滤器 大 小 
为 2x2， 长 和 宽 的 步 长 均 为 2， 所 以 本 层 的 输出 矩阵 大 小 为 14x14x6。 原 始 的 LeNet-5 模型 


(W Lecun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition [J]. Proceedings 
of the IEEE, 1998. 

@ 此 图 片 来 自 论文 Gradient-based learning applied to document recognition。 

@) 论文 GradientBased Learning Applied to Document Recognition 提出 的 LeNet-5 模型 中 ， 卷 积 层 和 池 化 层 
的 实现 与 6.3 节 中 介绍 的 TensorFlow 的 实现 有 细微 的 区 别 ， 本 书 不 过 多 的 讨论 具体 细节 ， 而 是 着 重 介 
绍 模型 的 整体 框架 。 
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中 使 用 的 过 滤器 和 6.3.2 小 市 介绍 的 有 些 细微 差别 ， 本 书 不 做 具体 介绍 。 

第 三 层 ， 卷 积 层 

本 层 的 输入 矩阵 大 小 为 14x14x6， 使 用 的 过 滤器 大 小 为 5x5， 深 度 为 16。 本 层 不 使 用 
全 0 填充 ， 步 长 为 1。 本 层 的 输出 矩阵 大 小 为 10x10x16。 按 照 标准 的 卷 积 层 ， 本 层 应 该 有 
5x5x6x16+16=2416 个 参数 ，10x10x16x (25+1) =41600 个 连接 。 

第 四 层 ， 池 化 层 

本 层 的 输入 和 矩阵 大 小 为 10x10x16， 采 用 的 过 滤器 大 小 为 2x2， 步 长 为 2。 本 层 的 输出 
矩阵 大 小 为 5x5x16。 

第 五 层 ， 全 连接 层 

本 层 的 输入 矩阵 大 小 为 5x5x16， 在 LeNet-5 模型 的 论文 中 将 这 一 层 称 为 卷 积 层 ， 但 是 
因为 过 滤器 的 大 小 就 是 Sx$， 所 以 和 全 连接 层 没 有 区 别 ， 在 之 后 的 TensorFlow 程序 实现 中 
也 会 将 这 一 层 看 成 全 连接 层 。 如 果 将 5x5x16 和 矩阵 中 的 节点 拉 成 一 个 问 量 , 那么 这 一 层 和 在 
第 4 章 中 介绍 的 全 连接 层 输入 就 一 样 了 。 本 层 的 输出 节点 个 数 为 120， 总 共有 
5x5x16x120+120=48120 个 参数 。 

第 六 层 ， 全 连接 层 : 

本 层 的 输入 节点 个 数 为 120 个 ， 输 出 节点 个 数 为 84 个 ， 总 共 参 数 为 120x84+84=10164 


第 七 层 ， 全 连接 层 " 
本 层 的 输入 节点 个 数 为 84 个 ， 输 出 节点 个 数 为 10 个 ， 总 共 参 数 为 84x10+10=850 个 。 
上 面 介绍 了 LeNet-5 模型 每 一 层 结 构 和 设置 ， 下 面 给 出 一 个 TensorFlow 的 程序 来 实现 
一 个 类 似 LeNet-5 模型 的 卷 积 神经 网 络 来 解决 MNIST 数字 识别 问题 。 通 过 TensorFlow 训 
练 卷 积 神经 网 络 的 过 程 和 第 $ 章 中 介绍 的 训练 全 连接 神经 网 络 是 完全 一 样 的 。 损 失 函 数 
的 计算 、 反 向 传播 过 程 的 实现 都 可 以 复 用 $.5 节 中 给 出 的 mnist train.py 程序 。 唯 一 的 区 
别 在 于 因为 卷 积 神经 网 络 的 输入 层 为 一 个 三 维 矩 阵 , 所 以 需要 调整 一 下 输入 数据 的 格式 : 
# 调整 输入 数据 placeholder 的 格式 ， 输 入 为 一 个 四 维和 矩阵 。 
tolacehnolderttt :rtloat32dl : : : 
BATCH SIZE, ; # 第 一 维 表示 一 个 batch 中 样 例 的 个 数 。 
mnist inference.IMAGE SIZE, # 第 二 维和 第 三 维 表 示 图 片 的 尺寸 。 
mnist inference.IMAGE SIZE, 
mnist inference.NUM CHANNELS], # 第 四 维 表示 图 片 的 深度 ， 对 于 RBG 格 
# 式 的 图 片 ， 深 度 为 5。 


name='x-input') 


(D LeNet-5 模型 论文 中 最 后 一 层 输 出 层 的 结构 和 全 连接 层 有 区 别 ， 但 我 们 这 用 全 连接 层 近似 的 表示 。 
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# 类 似 地 将 输入 的 训练 数据 格式 调整 为 一 个 四 维和 矩阵 , 并 将 这 个 调整 后 的 数据 传 入 sess .run 过 程 。 
reshaped xs = np.reshape'(xs, (BATCH: SIZE, 

mnist inference.IMAGE SIZE, 

mnist inference.IMAGE SIZE, 

mnist inference.NUM CHANNELS)) 


在 调整 完 输入 格式 之 后 ， 只 需要 在 程序 mnist_inference.py 中 实现 类 似 LeNet-5 模型 结 
构 的 前 问 传 播 过 程 即 可 。 下 面 给 出 了 修改 后 的 mnist_infernece.py 程序 。 


# 一 * 一 coding: utf-8 -~—*-— 
import tensorflow as tf 


# 配置 神经 网 络 的 参数 。 
INPUT NODE = 784 
OUTPUT NODE = 10 


IMAGE SIZE = 28 
NUM CHANNELS = 1 
NUM LABELS = 10 


# 第 一 层 卷 积 层 的 尺寸 和 深度 。 
CONV1 DEEP = 32 

CONV1 SIZE = 5 

# 第 二 层 卷 积 层 的 尺寸 和 深度 。 
CONV2 DEEP = 64 

CONV2 SIZE = 5 

# 全 连接 层 的 节点 个 数 。 

FC SIZE = 512 


# 定义 卷 积 神经 网 络 的 前 向 传播 过 程 。 这 里 添加 了 一 个 新 的 参数 train， 用 于 区 分 训练 过 程 和 测试 
# 过 程 。 在 这 个 程序 中 将 用 到 dropout 方法 ，dqrzopout 可 以 进一步 提升 模型 可 靠 性 并 防止 过 拟 合 
# dropout 过 程 只 在 训练 时 使 用 2。 
Gefs1inference(inputs tensor,S traliny :regquLlarlzer)s es 

# 声明 第 一 层 卷 积 层 的 变量 并 实现 前 向 传播 过 程 。 这 个 过 程 和 6. 3 .1 小节 中 介绍 的 一 致 

# 通过 使 用 不 同 的 命名 空间 来 隔离 不 同 层 的 变量 ， 这 可 以 让 每 一 层 中 的 变量 命名 只 需要 

# 考虑 在 当前 层 的 作用 ， 而 不 需要 担心 重 名 的 问题 。 和 标准 LeNet-5 模型 不 大 一 样 ， 这 里 

# 定义 的 卷 积 层 输入 为 28x28x1 的 原始 MNIST 图 片 像素 。 因 为 卷 积 层 中 使 用 了 全 0 填充 ， 

# 所 以 输出 为 28x28x32 的 矩阵。 

with tf.variable scope('layerl-convil'): 

convi weights.= tf-get variable.( 


GD 关于 dropout 的 详情 可 以 参考 论文 Hinton G 了 E， Srivastava N, Krizhevsky A, et al. Improving neural 


networks by preventing co-adaptation of feature detectors[J]]. Computer Science, 2012. 
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"weight", [CONV1 SIZE, CONV1 SIZE, NUM CHANNELS, CONV1 DEEP], 

initializer=tf.truncated normal initializer (stddev=0.1)) 
Convivbiases, ="tftgqetevartable 

vpilasyu eCONVISDEEp ls Lint tallier=tf. cornstant linitLiallzer(0.0)) 


# 使 用 边 长 为 5， 深度 为 32 的 过 滤器 ， 过 滤器 移动 的 步 长 为 1， 且 使 用 全 0 填充 。 
人 On 七 EenDaeon&ase 

input tensor, convi welLghts7 strides=[1, 1,1, 1], padding="' SAME') 
relul = tf.nn.relu(tf.nn.bias add(convil, convl1 biases)) 


# 实现 第 二 层 池 化 层 的 前 向 传播 过 程 。 这 里 选用 最 大 池 化 层 ， 池 化 层 过 滤器 的 边 长 为 2， 
# 使 用 全 0 填充 且 移 动 的 步 长 为 2。 这 一 层 的 输入 是 上 一 层 的 输出 ， 也 就 是 28x28x32 
# 的 矩阵 。 输 出 为 14x14x32 的 矩阵 。 
with tf.name scope'l('lJayer2~pooll); 
pooll = tf.nn.max pooll( 
edt kollel el CLs 2 | an SAME.) 


# 声明 第 三 层 卷 积 层 的 变量 并 实现 前 向 传播 过 程 。 这 一 层 的 输入 为 14x14x32 的 矩阵 。 
# 输出 为 14x14x64 的 矩阵 。 
with tf.variable scope ("layer3-COnv2): 
conv2 “weights = tf.get variable!l 
"weight", [CONV2 SIZE, CONV2 SIZE, CONV]1 DEEP, CONV2 DEEP], 
initializer=tf.truncated normal initializer (stddev=0.1)) 
Conv2 biases. = tf.get variable 
"bias", [CONV2 DEEP], 
nitializer=tf Constanteinatiallizer (0.0)s) 


# 使 用 边 长 为 5， 深度 为 64 的 过 滤器 ， 过 滤器 移动 的 步 长 为 1， 且 使 用 全 0 填充 。 
Conv2 = tf.nn.conv2dl( 

pooll, conv2 weights, strides=[1, 1, 1.21], padding=» SAME") 
relu2 = tf.nn.relul(tf.nn.bias add(conv2， conv2 biases)) 


# 实现 第 四 层 池 化 层 的 前 向 传播 过 程 。 这 一 层 和 第 二 层 的 结构 是 一 样 的 。 这 一 层 的 输入 为 
# 14x14x64 的 矩阵 ， 输 出 为 7x7x64 的 矩阵 。 es : 
with tf.name scope('layer4-pool12'): 
Pool2 = tf.nn.max pooll( 
relu2, ksize=[1, 2 eS = Dl rAdUnd AME.. ) 


# 将 第 四 层 池 化 层 的 输出 转化 为 第 五 层 全 连接 层 的 输入 格式 。 第 四 层 的 输出 为 7x7x64 的 矩阵 ， 
# 然而 第 五 层 全 连接 层 需要 的 输入 格式 为 向 量 , 所 以 在 这 里 需要 将 这 个 7x7x64 的 矩阵 拉 直 成 一 


# 个 向 量 。poo12 .get_ shape 函数 可 以 得 到 第 四 层 输出 矩阵 的 维度 而 不 需要 手工 计算 。 注 意 


# 因为 每 一 层 神经 网 络 的 输入 输出 都 为 一 个 batch 的 矩阵 ， 所 以 这 里 得 到 的 维度 也 包含 了 一 个 
# batch 中 数据 的 个 数 。 
pool shape = pool2.get shape().as list() 
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# 计算 将 矩阵 拉 直 成 向 量 之 后 的 长 度 ， 这 个 长 度 就 是 矩阵 长 宽 及 深度 的 乘积 。 注 意 这 里 
# pool shape[0] 为 一 六 batch 中 数据 的 个 数 。 
nodes = pool shape[1] * pool shape[2] * pool shape{3] 


# 通过 tf.reshape 函数 将 第 四 层 的 输出 变 成 一 个 batch 的 向 量 。 
reshaped = tf.reshape (pool2, [pool shape[0], nodes]) 


# 声明 第 五 层 全 连接 层 的 变量 并 实现 前 向 传播 过 程 。 这 一 层 的 输入 是 拉 直 之 后 的 一 组 向 量 ， 
# 向 量 长 度 为 3136， 输 出 是 一 组 长 度 为 512 的 向 量 。 这 一 层 和 之 前 在 第 5 章 中 介绍 的 基本 
# 一致， 唯一 的 区 别 就 是 引入 了 dropout 的 概念 。dropout 在 训练 时 会 随机 将 部 分 节点 的 
# 输出 改 为 0。dropout 可 以 避免 过 拟 合 问题 ， 从 而 使 得 模型 在 测试 数据 上 的 效果 更 好 。 
# dropout 一 般 只 在 全 连接 层 而 不 是 卷 积 层 或 者 池 化 层 使 用 .。 
with tf.variable scope('layer5-fc1'): 
fcl=swerghts ="tf .get variablel 
"werght"r [nodesse FC STaEl, 
initializer=tf.truncated normal initializer (stddev=0.1)) 
# 只 有 全 连接 层 的 权重 需要 加 入 正则 化 。 
if regularizer != None: 
tf add tocolLlection(slosses. regqularizer(fclesweights),) 
tclepiasess= tf.getsvarlable 
"biaswvs [EC STZEI einitialtizer=tf constant -einitliaPizer(0dl),) 


fcl = tf.nn.relu(tf.matmul (reshaped, fcl] weights) + fcl1 biases) 
latralns tol = tfonn opou(tEcl sad.o) 


# 声明 第 六 层 全 连接 层 的 变量 并 实现 前 同 传播 过 程 。 这 一 层 的 输入 为 一 组 长 度 为 512 的 向 量 ， 
# 输出 为 一 组 长 度 为 10 的 向 量 。 这 一 层 的 输出 通过 Softmax 之 后 就 得 到 了 最 后 的 分 类 结果 。 
with tf.variable“scope ("Jayero~fc2”): 
fc2 weights = tf.get variable' 
"weight", [FC SIZE, NUM LABELS], 
initializer=tf.truncated normal ee AS le 1 ) 
if regularizer != None: : 
tf.add to collection('losses'", a _weights)) 
foc2biasess= tfeagetevarsabEel 
"bias", [NUM LABELS], 
initializer=tf. constant initializer(0.1)) 
logit = tf.matmul (fcl, fc2 weights) + fc2 biases 


# 返回 第 六 层 的 输出 。 


return logit 


运行 修改 后 的 mnist train.py， 可 以 得 到 类 似 第 5 章 中 的 输出 : 
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~/mnist$ Python mnist train.py 

Extracting /tmp/data/train-images-idx3-ubyte.gz 

Extracting /tmp/data/train-~-labels-idxl-ubyte.gz 

Extracting /tmp/data/tl0k-images-idx3-ubyte.gz 

Extracting /tmp/data/t10k-labels-idxl-ubyte.gz 

AfCersl trarningsstepls) LosSs On trormningaDatcohers:60s45313s 
After 1001 training step(s), loss on training batch is 0.824825. 
After 2001 training step(s), loss on training batch is 0.646993. 
After 3001 training step(s), loss on training batch: is 0.759975. 
After 4001 training step(s), loss on training batch is 0.68468. 
After 5001 training step(s), loss on training batch is 0.630368. 


类 似 地 修改 第 5 章 中 给 出 的 mnist_eval.py 程序 输入 部 分 ， 就 可 以 测试 这 个 卷 积 神 经 网 
络 在 MNIST 数据 集 上 的 正确 率 了 。 在 MNIST 测试 数据 上 ， 上 面 给 出 的 卷 积 神经 网 络 可 以 
达到 大 约 99.4% 的 正确 率 。 相 比 第 5 章 中 最 高 的 98.4% 的 正确 率 ， 卷 积 神 经 网 络 可 以 巨 幅 
提高 神经 网 络 在 MNIST 数据 集 上 的 正确 率 。 

然而 一 种 卷 积 神经 网 络 架构 不 能 解决 所 有 问题 。 比 如 LeNet-5 模型 陨 无 法 很 好 地 处 理 
类 似 ImageNet 这 样 比较 大 的 图 像 数据 集 。 那么 如 何 设计 卷 积 神经 网 络 的 架构 呢 ? 下 面 的 正 
则 表达 式 公 式 总 结 了 一 些 经 典 的 用 于 图 片 分 类 问题 的 卷 积 神经 网 络 染 构 : 

输入 层 一 〈 卷 积 层 +- 池 化 层 ? ) + 一 全 连接 层 + 

在 上 面 的 公式 中 ,“ 卷 积 层 +” 表 示 一 层 或 者 多 层 卷 积 层 ， 大 部 分 卷 积 神经 网 络 中 一 般 
最 多 连续 使 用 三 层 卷 积 层 。“ 池 化 层 ? ”表示 没有 或 者 一 层 池 化 层 。 池 化 层 虽 然 可 以 起 到 减 
少 参数 防止 过 拟 合 问题 ， 但 是 在 部 分 论文 中 也 发 现 可 以 直接 通过 调整 卷 积 层 步 长 来 完成 ”。 
所 以 有 些 卷 积 神 经 网 络 中 没有 池 化 层 。 在 多 轮 卷 积 层 和 池 化 层 之 后 ， 卷 神经 网 络 在 输出 之 
前 一 般 会 经 过 1~2 个 全 连接 层 。 比 如 LeNet-5 模型 就 可 以 表示 为 下 面 的 结构 。 

输入 层 一 卷 积 层 一 池 化 层 一 卷 积 层 一 池 化 层 一 全 连接 层 一 全 连接 层 一 输出 层 

除了 LeNet-5 模型 ，2012 年 ImageNet ILSVRC 图 像 分 类 挑战 的 第 一 名 AlexNet 模型 、 
2013 年 ILSVRC 第 一 名 ZF Net 模型 以 及 2014 年 2014 年 第 二 名 VGGNet 模型 的 架构 都 满 
足 上 面 介 绍 的 正则 表达 式 。 表 6-1 给 出 了 VGGNet 论文 Very Deep Convolutional Networks for 
Large-Scale Image Recognition“ 中 作者 尝试 过 的 不 同 卷 积 神经 网 络 架 构 。 从 表 6-1 中 可 以 看 
出 这 些 卷 积 神经 网 络 架 构 都 满足 介绍 的 正则 表达 式 。 


@Q) 具体 可 以 参考 论文 Striving for Simplicity: The All Convolutional Net。 
@) Simonyan K, Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition [J]. 
Computer Science, 2014. 


154 8 


ww ai bbt.com DODOUDDDDD 





第 6 章 图 像 识 别 与 卷 积 神经 网 络 





表 6-1 VGGNet 模型 论文 中 尝试 过 的 卷 积 神经 网 络 架构 人 
(其 中 conv* 表 示 卷 积 层 ，maxpool 表示 池 化 层 ，FC-* 表 示 全 连接 层 ，soft-max 为 softmax 结构 ) 












input {224 x 224 RGB Image) 


corny3-64 cony3-64 conv3-64 conv3-64 conv3-64 Conv3-64d 
LRN conv3-64 conv3-64 COnY3-064 conv3-64 



























































maxpoo 
CONY3-128 | conv3-128 | cony3-i28 | conv3-128 | conv3-128 | cony3-128 
| 

maxpool 
CONVY3-256 | conv3-256 | conv3-256 | conv3-256 | conv3-256 | conv3-256 
CONnyv3-256 | conv3-256 | conv3-256 | conv3-256 | conv3-256 | cony3-256 
cony1-2S6 | cony3-236 | cony3-256 
conyv3-256 

maxpool 
coOnV3-312 | conv3-512 | conv3-512 | conv3-512 | conv3-S12 | conv3-512 
conv3-512 | conv3-512 | conv3-$12 | conv3-512 | conv3-512 | conv3-512 
li nd convl-S12 | convyv3-S12 | conv3-512 
conv3-512 

maxpool 
conv3-512 | conv3-512 | conv3-312 | conv3-512 | conv3-51l2 | cony3-512 
conv3-312 | conv3-512 | conv3-312 | conv3-512 | conv3-512 | cony3-512 
convl-S12 | conv3-S12 | cony3-512 
conv3-$12 

maxpool 

FC-4096 

FC-4096 

FC-1000 





SOfft-max 


有 了 卷 积 神经 网 络 的 架构 ， 那 么 每 一 层 卷 积 层 或 者 池 化 层 中 的 配置 需要 如 何 设置 呢 ? 
表 6-1 也 提供 了 很 多 线索 。 在 表 6-1 中 ，convX-Y 表示 过 滤器 的 边 长 为 X， 深 度 为 Y。 比 如 
conv3-64 表示 过 滤器 的 长 和 宽 都 为 3， 深度 为 64。 从 表 6-1 中 可 以 看 出 ，VGG Net 中 的 过 
滤器 边 长 一 般 为 3 或 者 1。 在 LeNet-5 模型 中 ,也 使 用 了 边 长 为 5 的 过 滤器 。 一 般 卷 积 层 的 
过 滤器 边 长 不 会 超过 5, 但 有 些 卷 积 神经 网 络 结构 中 ， 处理 输入 的 卷 积 层 中 使 用 了 边 长 为 7 
甚至 是 11 的 过 滤器 。 

在 过 滤器 的 深度 上 ， 大 部 分 卷 积 神经 网 络 都 采用 逐 层 递增 的 方式 。 比 如 在 表 6-1 中 可 
以 看 到 ， 每 经 过 一 次 池 化 层 之 后 ， 卷 积 层 过 滤器 的 深度 会 乘 以 2。 虽 然 不 同 的 模型 会 选择 
使 用 不 同 的 具体 数字 ， 但 是 逐 层 递增 是 比较 普遍 的 模式 。 卷 积 层 的 步 长 一 般 为 1， 但 是 在 
有 些 模 型 中 也 会 使 用 2， 或 者 3 作为 步 长 。 池 化 层 的 配置 相对 简单 ， 用 的 最 多 的 是 最 大 池 
化 层 。 池 化 层 的 过 滤器 边 长 一 般 为 2 或 者 3， 步 长 也 一 般 为 2 或 者 3。 


6.4.2 ”Inception 一 v3 模型 


在 6.4.1 小 节 中 通过 介绍 LeNet-5 模型 整理 出 了 一 类 经 典 的 卷 积 神经 网 络 架 构 设 计 。 在 
这 一 小 节 中 将 介绍 Inception 结构 以 及 Inception-v3 卷 积 神经 网 络 模 型 。Inception 结构 是 一 


人 此 表 源 自 论文 Very Deep Convolutional Networks for Large-Scale JImage Recognition。 
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种 和 LeNet-5 结构 完全 不 同 的 卷 积 神经 网 络 结构 。 在 LeNet-5 模型 中 ， 不 同 卷 积 层 通 过 曲 
联 的 方式 连接 在 一 起 ， 而 Inception-v3 模型 中 的 Inception 结构 是 将 不 同 的 卷 积 层 通过 并 联 
的 方式 结合 在 一 起 。 在 下 面 的 篇 幅 中 将 具体 介绍 Inception 结构 ， 并 通过 TensorFlow-Slim 
工具 来 实现 Inception-v3 模型 中 的 一 个 模块 。 : 

在 6.4.1 中 提 到 了 一 个 卷 积 层 可 以 使 用 边 长 为 1、3 或 者 5 的 过 滤器 ， 那 么 如 何在 这 些 
边 长 中 选 呢 ? Inception 模块 给 出 了 一 个 方案 ， 那 就 是 同时 使 用 所 有 不 同 尺寸 的 过 滤器 ， 然 
后 再 将 得 到 的 矩阵 拼接 起 来 。 图 6-16 给 出 了 Inception 模块 的 一 个 单元 结构 示意 图 。 


得 入 移 阵 inception 中 间 结 果 输出 矩阵 





图 6-16 ”Inception 模块 示意 图 。 


从 图 6-16 中 可 以 看 出 ，Inception 模块 会 首先 使 用 不 同 尺 寸 的 过 滤器 处 理 输入 矩阵 。 在 
图 6-16 中 ， 最 上 方 矩 阵 为 使 用 了 边 长 为 1 的 过 滤器 的 卷 积 层 前 向 传播 的 结果 。 类 似 的 ， 中 
则 和 矩阵 使 用 的 过 滤器 边 长 为 3, 下 方 矩阵 使 用 的 过 滤器 边 长 为 $。 不 同 的 矩阵 代表 了 Inception 
模块 中 的 一 条 计算 路 径 。 虽 然 过 滤器 的 大 小 不 同 ， 但 如 果 所 有 的 过 滤器 都 使 用 全 0 填充 且 
步 长 为 1， 那 么 前 向 传播 得 到 的 结果 矩阵 的 长 和 宽 都 与 输入 矩阵 一 致 。 这 样 经 过 不 同 过 滤 
露 处 理 的 结果 矩阵 可 以 拼接 成 一 个 更 深 的 矩阵 。 如 图 6-16 所 示 ， 可 以 将 它们 在 深度 这 个 维 
度 上 组 合 起 来 。 

图 6-16 所 示 的 Inception 模块 得 到 的 结果 矩阵 的 长 和 宽 与 输入 一 样 , 深度 为 红 黄 蓝 三 个 
矩阵 深度 的 和 。 图 6-16 中 展示 的 是 Inception 模块 的 核心 思想 ， 真 正在 Inception-v3 模型 中 
使 用 的 Inception 模块 要 更 加 复杂 且 多 样 ， 有 兴趣 的 读者 可 以 参考 论文 Rethinking the 
Jnception Architecture for Computer Vision "。 图 6-17 给 出 了 Inception-v3 模型 的 架构 图 。 


() Szegedy C, Vanhoucke V, Ioffe S, et al. Rethinking the Inception Architecture for Computer Vision[]]. 
Computer Science, 2015. 
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图 6-17 ”Inception-v3 模型 架构 图 


Inception-v3 模型 总 共有 46 层 ， 由 11 个 Inception 模块 组 成 。 图 6-17 中 方 框 标注 出 来 
的 结构 就 是 一 个 Inception 模块 。 ES Inception-v3 模型 中 有 96 个 卷 积 层 ， 如 果 将 6.4.1 小 节 
中 的 程序 直接 搬 过 来 ， 那 么 一 个 卷 积 层 就 需要 5 行 代码 ， 于 是 总 共 需 要 480 行 代码 来 实现 
所 有 的 卷 积 层 。 这样 使 得 代码 的 可 读 性 非常 差 。 为 了 更 好 地 实现 类 似 Inception-v3 模型 这 样 
的 复杂 卷 积 神经 网 络 ， 在 下 面 将 先 介 绍 TensorFlow-Slim 工具 来 更 加 简洁 地 实现 一 个 卷 积 
层 。 以 下 代码 对 比 了 直接 使 用 TensorFlow 实现 一 个 卷 积 层 和 使 用 TensorFlow-Slim 实现 同 
样 结 构 的 神经 网 络 的 代码 量 。 
# 直接 使 用 TensorFlow 原始 API 实现 卷 积 层 。 
with tf.variable scope (scope name): 
weights = tf.get variable("weight", ...) 
biases = tf.get variable'("blias™y. ..) 


CONV = EE nn COnvodt(s,) 
relus = win relr(tE nn Las rad (Conv Lases):) 


# 使 用 TensorFlow-Slim 实现 卷 积 层 。 通 过 TensorFlow-Slim 可 以 在 一 行 中 实现 一 个 卷 积 层 

# 的 前 问 传播 算法 。slim.conv2d 函数 的 有 3 个 参数 是 必 填 的 。 第 一 个 参数 为 输入 节点 矩阵 ， 第 

# 二 参数 是 当前 卷 积 层 过 滤器 的 深度 ， 第 三 个 参数 是 过 滤器 的 尺寸 。 可 选 的 参数 有 过 滤器 移动 的 步 

# 长 、 是 否 使 用 全 0 填充 、 激 活 函 数 的 选择 以 及 变量 的 命名 空间 等 。. : - 

netS= Som ConNnvd (Tnput SS32 TS 3 | 

因为 完整 的 Inception-v3 模型 比较 长 ， 所 以 在 本 书 中 仅 提 供 Inception-v3 模型 中 结构 相 
对 复杂 的 一 个 Inception 模块 的 代码 实现 ”以 下 代码 实现 了 图 6-17 中 红色 方 框 中 的 Inception 
模块 。 


QD 在 TensorFlow 的 GitHub 代码 库 上 找到 完整 的 Inception-v3 模型 的 源码 。GitHub 的 地 址 为 
https://github.com/tensorflow/tensorflow/blob/master/tensorflow/contrib/slim/python/slim/nets/inception v3. 
py。 
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# slim.arg scope 函数 可 以 用 于 设置 默认 的 参数 取 值 。slim.arg_scope 函数 的 第 一 个 参数 是 

# 一 个 函数 列表 ， 在 这 个 列表 中 的 函数 将 使 用 默认 的 参数 取 值 。 比 如 通过 下 面 的 定义 ， 调用 

# slim.conv2d (net，320，[1，1]) 函数 时 会 自动 加 上 stride=1 和 padding='SAME' 的 参 

# 数 。 如 果 在 函数 调用 时 指定 了 stride， 那 么 这 里 设置 的 默认 值 就 不 会 再 使 用 。 通 过 这 种 方式 

# 可 以 进一步 减少 见 余 的 代码 。 ; 

with slim.arg scope(l[slim.conv2d, slim.max pool2d, slim.avg pool2d], 
stride=1] , padding='SAME'): 


# 此 处 省 略 了 Inception-v3 模型 中 其 他 的 网 络 结构 而 直接 实现 最 后 面 红 色 方 框 中 的 。 
# Inception 结构 。 假 设 输入 图 片 经 过 之 前 的 神经 网 络 前 向 传播 的 结果 保存 在 变量 net 
# 中 。 
net = 上 一 层 的 输出 节点 矩阵 
# 为 一 个 Inception 模块 声明 一 个 统一 的 变量 命名 空间 。 
withatft:variabDLe scope(" Mixede /Ce): 
# 给 Inception 模块 中 每 一 条 路 径 声 明 一 个 命名 空间 。 
with:tf.variable'scope'( "Branchy bs 
# 实现 一 个 过 滤器 边 长 为 1， 深度 为 320 的 卷 积 层 。 
branch 0 = slim.conv2d(net, 320, [i1, 1], scope="'Conv2d 0a lxl1'") 


# Inception 模块 中 第 二 条 路 径 。 这 条 计算 路 径 上 的 结构 本 身 也 是 一 个 Inception 结 
# 构 。 
Withetf.varliablecscope,(LBranchs Ll}: 
branch B=:slimconv2d (netr 384 E11 scope='Conv2d 0a 1xl1') 
# tf.concat 函数 可 以 将 多 个 矩阵 拼接 起 来 。tf.concat 函数 的 第 一 个 参数 指定 
# 了 拼接 的 维度 , 这 里 给 出 的 “3” 代 表 了 和 矩 阵 是 在 深度 这 个 维度 上 进行 拼接 。 图 6-16 
# 中 展示 了 在 深度 上 拼接 矩阵 的 方式 。 
FEBzanched =*tf COoncCat (3 sl 
# 如 图 6-17 所 示 ， 此 处 2 层 卷 积 层 的 输入 都 是 pranch_1 而 不 是 net。 
slim.conv2d (branch 1, 384, [1l, 3], scope='Conv2d 0b 1x3'), 
slimConv2d (braneh lr 384, [3 1]:SsScope="CONnV20R0CHSXLE ) |]) 


# Inception 模块 中 第 三 条 路 径 。 此 计算 路 径 也 是 一 个 Inception 结构 。 


with tf varjable scope'("Branch 2 ): 


branch 2 = slim.conv2d( 
net, 448, [1, 1], scope='Conv2d 0a lxl1') 
branch 2 = slim.Cconv2d!( 


Draneh: 2, 3084 [L373] .SCOPe= CONV20 0D 3K3:) 
DanchAaE ti CoOncat G3 
slim.conv2d (branch 2, 384, 
E13] SCOPe="COnVv2d Oc TX3"), 
slim.conv2d (branch 2, 384, : 
[37y5 L152SCope='Conv2d 0d 3xXL 2) 
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# Inception 模块 中 第 四 条 路 径 。 
GELapLeESseeBe (Branch Sa 
pranch “3:=~S1T1im avg poolL2Q: 
netyeml rmSCOPe= 人 VIPEoolseUa 3X3 
branch S333sTLin Gonv2d'( 
branceha3 LO LL SCODPesConv odel Xl 


# 当前 Inception 模块 的 最 后 输出 是 由 上 面 四 个 计算 结果 拼接 得 到 的 。 
cetCfuooncat (torranen Om branch Lr branch oe beanchs 3 


在 本 节 中 将 介绍 迁移 学 习 的 概念 以 及 如 何 通过 TensorFlow 来 实现 迁移 学 习 。 在 6.5.1 
小 节 中 将 讲解 迁移 学 习 的 动机 ， 并 介绍 如 何 将 一 个 数据 集 上 训练 好 的 卷 积 神经 网 络 模型 快 
速 转移 到 另外 一 个 数据 集 上 。 在 6.5.2 小 节 中 将 给 出 一 个 具体 的 TensorFlow 程序 将 ImageNet 
上 上 训练 好 的 Inception-v3 模型 转移 到 为 外 一 个 图 像 分 类 数据 集 上 。 


6.5.1 迁移 学 习 介 绍 


在 6.4 节 中 介绍 了 1998 年 提出 的 LeNet-5 模型 和 2015 年 提出 的 Inception-v3 模型 。 对 
比 这 两 个 模型 可 以 发 现 ， 卷 积 神经 网 络 模型 的 层 数 和 复杂 度 都 发 生 了 巨大 的 变化 。 表 6-2 
给 出 了 从 2012 年 到 2015 年 ILSVRC (Large Scale Visual Recognition Challenge) 第 一 名 模 
型 的 层 数 以 及 前 五 个 答案 的 错误 率 。 


表 6-2 |ILSVRC 第 一 列表 





从 表 6-2 可 以 看 到 ， 随 看 模型 层 数 及 复杂 度 的 增加 ， 模 型 在 ImageNet 上 的 错误 率 也 随 
之 降低 。 然 而 ， 训 练 复杂 的 卷 积 神经 网 络 需 要 非常 多 的 标注 数据 。 如 6.1 节 中 提 到 的 ， 


@ 在 这 里 层 数 只 计算 了 卷 积 层 和 全 连接 层 的 个 数 ， 没 有 参数 的 池 化 层 没有 包括 在 内 。 
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ImageNet 图 像 分 类 数据 集中 有 120 万 标注 图 片 ,所 以 才能 将 152 层 的 ResNet 的 模型 训练 到 
大 约 96.5% 的 正确 率 。 在 真实 的 应 用 中 ， 很 难 收集 到 如 此 多 的 标注 数据 。 即 使 可 以 收集 到 ， 
也 需要 花费 大 量 人 力 物 力 。 而 且 即 使 有 海量 的 训练 数据 ， 要 训练 一 个 复杂 的 卷 积 神经 网 络 
也 需要 几 天 甚至 几 周 的 时 间 。 为 了 解决 标注 数据 和 训练 时 间 的 问题 ， 可 以 使 用 本 市 将 要 介 
绍 的 迁移 学 习 。 

所 谓 迁 移 学 习 ， 就 是 将 一 个 问题 上 训练 好 的 模型 通过 简单 的 调整 使 其 适用 于 一 个 新 的 
问题 。 本 小 节 将 介绍 如 何 利用 ImageNet 数据 集 上 训练 好 的 Inception-v3 模型 来 解决 一 个 新 
的 图 像 分 类 问题 。 根 据 论 文 DeCAF: A Deep Convolutional Activation Feature for Generic 
Visual Recognition" 中 的 结论 ， 可 以 保留 训练 好 的 Inception-v3 模型 中 所 有 卷 积 层 的 参数 ， 
只 是 替换 最 后 一 层 全 连接 层 。 在 最 后 这 一 层 全 连接 层 之 前 的 网 络 层 称 之 为 瓶颈 层 
(bottleneck ) 。 

将 新 的 图 像 通 过 训练 好 的 卷 积 神经 网 络 直到 瓶颈 层 的 过 程 可 以 看 成 是 对 图 像 进 行 特征 
提取 的 过 程 。 在 训练 好 的 Inception-v3 模型 中 ,因为 将 瓶颈 层 的 输出 再 通过 一 个 单 层 的 全 连 
接 层 神经 网 络 可 以 很 好 地 区 分 1000 种 类 别 的 图 像 , 所 以 有 理由 认为 瓶 贷 层 输出 的 看 反 同 量 
可 以 被 作为 任何 图 像 的 一 个 更 加 精简 且 表 达能 力 更 强 的 特征 向 量 。 于 是 ， 在 新 数据 集 上 ， 
可 以 直接 利用 这 个 训练 好 的 神经 网 络 对 图 像 进行 特征 提取 ， 然 后 再 将 提取 得 到 的 特征 同 量 
作为 输入 来 训练 一 个 新 的 单 层 全 连接 神经 网 络 处 理 新 的 分 类 问题 。 

一 般 来 说 ， 在 数据 量 足 够 的 情况 下 ， 迁 移 学习 的 效果 不 如 完全 重新 训练 。 但 是 迁移 学 
习 所 需要 的 训练 时 间 和 训练 样本 数 要 远 远 小 于 训练 完整 的 模型 。 在 没有 GPU 的 普通 台式 
机 或 者 笔记 本 电脑 上 ，6.5.2 小 节 中 给 出 的 TensorFlow 训练 过 程 只 需要 大 约 5 分钟 ， 而 且 
可 以 达到 大 概 90% 的 正确 率 。 


6.5.2 ”TensorFlow 实现 迁移 学 习 


本 小 节 将 给 出 一 个 完整 的 TensorFlow 程序 来 介绍 如 何 通 过 TensorFlow 实现 迁移 学 习 。 
以 下 代码 给 出 了 如 何 下 载 这 一 小 节 中 将 要 用 到 的 数据 集 。 


curl http://download.tensorflow.org/example images/flower photos.tgz 
bar x2Zf ELOwer photos: tg2 


Q) Donahue J Jia Y, Vinyals O, et al. DeCAF: A Deep Convolutional Activation Feature for Generic Visual 
Recognition [J]. Computer Science, 2013. 

@ 第 10 章 将 介绍 TensorFlow 如 何 使 用 GPU 加 速 训练 过 程 。 

@ 数据 下 载 和 数据 预 处 理 的 时 间 没 有 计算 在 内 。 
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解压 之 后 的 文件 夹 包 含 了 5 个 子 文件 夹 ， 每 一 个 子 文件 夹 的 名 称 为 一 种 化 的 名 称 ， 代 
表 了 不 同 的 类 别 。 平 均 每 一 种 花 有 734 张 图 片 ， 每 一 张 图 片 都 是 RGB 色彩 模式 的 ， 大 小 也 
不 相同 。 和 之 前 的 样 例 不 同 , 在 这 一 小 节 中 给 出 的 程序 将 直接 处 理 没有 整理 过 的 图 像 数 据 。 
同时 ， 通 过 下 面 的 命名 可 以 下 载 谷歌 提供 的 训练 好 的 Inception-v3 模型 。 

wget https://storage.googleapis.com/download.tensorflow.org/models/\ 


inception sdecs2015.2Zz1p 
‘unzip tensorflow/examples/label image/data/inception dec 2015.zip 


当 新 的 数据 集 和 已 经 训练 好 的 模型 都 准备 好 之 后 ， 可 以 通过 以 下 代码 来 完成 迁移 学 习 
的 过 程 。 


nt 


import glob 

import os.path 

import random 

ijmport numpy as np 

ijmport tensorflow as tf 

from tensorflow.python.platform import gfile 


# Inception-v3 模型 瓶颈 层 的 节点 个 数 。 
BOTTLENECK TENSOR SIZE = 2048 


# Inception-v3 模型 中 代表 瓶颈 层 结 果 的 张 量 名 称 。 在 谷歌 提供 的 Inception-v3 模型 中 ,这 
# 个 张 量 名 称 就 是 'pool 3/_reshape:0'。 在 训练 的 模型 时 ， 可 以 通过 tensor .name 来 获取 张 
# 量 的 名 称 。 

BOTTLENECK TENSOR NAME = 'pool 3/ reshape:0' 


# 图 像 输入 张 量 所 对 应 的 名 称 。 
JPEG DATA TENSOR NAME = 'DecodeJpeg/contents:0' 


# 下 载 的 谷歌 训练 好 的 Inception-v3 模型 文件 目录 。 
MODEL DIR = '/path/to/model' ; 


# 下 载 的 谷歌 训练 好 的 Inception-v3 模型 文件 名 。 
MODEL FILE = 'classify image graph def.pb' 


# 因为 一 个 训练 数据 会 被 使 用 多 次 ， 所 以 可 以 将 原始 图 像 通过 Inception-v3 模型 计算 得 到 
# 的 特征 向 量 保存 在 文件 中 ， 免 去 重复 的 计算 。 下 面 的 变量 定义 了 这 些 文件 的 存放 地 址 。 
CACHE DIR = '/tmp/bottleneck' 


# 图 片 数据 文件 夹 。 在 这 个 文件 夹 中 每 一 个 子 文件 夹 代表 一 个 需要 区 分 的 类 别 ， 每 个 子 文件 夹 中 
# 存放 了 对 应 类 别 的 图 片 。 


1 161 


ww albbt.com DODODDDDOD 





TensorFlow: 实战 Google 深度 学 习 框 架 


162 


INPUT DATA = '/path/to/flower data' 


# 验证 的 数据 百分比 。 
VALIDATION PERCENTAGE = 10 
# 测试 的 数据 百分比 。 

TEST PERCENTAGE = 10 


# 定义 神经 网 络 的 设置 。 
LEARNING RATE = 0.01 
STEPS = 4000 

BATCH = 100 


# 这 个 函数 从 数据 文件 夹 中 读 取 所 有 的 图 片 列表 并 按 训 练 、 验 证 、 测 试 数据 分 开 。 


# testing percentage 和 validation percentage 参数 指定 了 测试 数据 集 和 验证 数据 集 的 


# 大 小 。 


def:create “image lists (testing. percentage, validation percentage):: 


# 得 到 的 所 有 图 片 都 存在 result 这 个 字典 (dictionary) 里 。 这 个 字典 的 key 为 类 别 的 名 


# 称 ，value 是 也 是 一 个 字典 ,字典 里 存储 了 所 有 的 图 片 名 称 。 
reSUlts = St} 
# 获取 当前 目录 下 所 有 的 子 目 录 。 
sub dirs = [x[0] for x in os.walk(INPUT DATA)] 
# 得 到 的 第 一 个 目录 是 当前 目录 ， 不 需要 考虑 。 
SSECOERQdLT := TEae 
forssubsdireinesuDedirs: 
LilTS erEOOBLr:: 
i SrOoCEm= EaLse 
continue 


# 获取 当前 目录 下 所 有 的 有 效 图 片 文件 。 

extensions = ['jpg'r 'JPpeg'y JPG', JPEG2 
人工 es 二 SS 七 二 二 过: 由] 

dir name = os.path.basename (sub dir) 

for extension in extensions: 


file glob = os.path.join(INPUT DATA, dir name, '*.' + extension) 


Fem lSG: extend (glob. glob (file EIEN 
NOLtT FIEe lSt continue 


# 通过 目录 名 获取 类 别 的 名 称 。 
label name = dir name.lower () 
# 初始 化 当前 类 别 的 训练 数据 集 、 测 斌 数据 集 和 验证 数据 集 。 
trainingsimages := 
testing images = [] 
validation images = [] 
for“ftile name in file list: 
base name = -0s.path. basename (file name) 


# 随机 将 数据 分 到 训练 数据 集 、 测 试 数据 集 和 验证 数据 集 。 
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chance = np.random.randint (100) 

if chance < validation percentage: 
validation images .append (base name) 

elif chance < (testing percentage + validation percentage): 
testing images.append (base name) 

else: 
training images.append (base name) 


# 将 当前 类 别 的 数据 放 入 结果 字典 。 
resuLtllabelnamel = 
WO se Or nAame, 
tnalnLing Eralining mgess 
‘testing”: -testing simages;, 
'validation': validation images, 


} 
# 返回 整理 好 的 所 有 数据 。 


rT etn eS 


这 个 函数 通过 类 别名 称 、 所 属 数据 集 和 图 片 编号 获取 一 张 图 片 的 地 址 。 

image 1ists 参数 给 出 了 所 有 图 片 信息 。 

image dir 参数 给 出 了 根 目录 。 存 放 图 片 数 据 的 根 目录 和 存放 图 片 特征 向 量 的 根 目 录 地 址 不 同 。 
label name 参数 给 定 了 类 别 的 名 称 。 

index 参数 给 定 了 需要 获取 的 图 片 的 编号 。 

category 参数 指定 了 需要 获取 的 图 片 是 在 训练 数据 集 、 测 试 数据 集 还 是 验证 数据 集 。 

def get image path (Image lists, image dir, label name, index, category): 
# 获取 给 定 类 别 中 所 有 图 片 的 信息 。 

label] lists = image lists[label name] 

# 根据 所 属 数 据 集 的 名 称 获取 集合 中 的 全 部 图 片 信息 。 

category list:= label- lists[lcategory] 

mod index = index $ len(category list) 

# 获取 图 片 的 文件 名 。 

base name = category list[mod index] 

SUbErrs Labelnlistsl dir 

# 最 终 的 地 址 为 数据 根 目 录 的 地 址 加 上 类 别 的 文件 夹 加 上 图 片 的 名 称 。 

full Path = os.path.join(image dir,, sub dir, base name) 
returneeulilspath 


半 厘 半音 : 间 井 


# 这 个 函数 通过 类 别名 称 、 所 属 数据 集 和 图 片 编号 获取 经 过 Inception-v3 模型 处 理 之 后 的 特征 向 量 
# 文件 地 址 。 


def get bottleneck path (image lists, label name, index, category): 
return get image path(image lists, CACHE DIR, 
label name, index, category) +:" .txt' 


# 这 个 函数 使 用 加 载 的 训练 好 的 Inception-v3 模型 处 理 一 张 图 片 ， 得 到 这 个 图 片 的 特征 向 量 。 
def run bottleneck on image(sess, image data, image data tensor, 
pottleneck® tensor):: 
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# 这 个 过 程 实际 上 就 是 将 当前 图 片 作为 输入 计算 瓶颈 张 量 的 值 。 这 个 瓶颈 张 量 的 值 就 是 这 

# 张 图 片 的 新 的 特征 回 量 。 

bottleneck valuess=2SeSS.run(bottleneck tensor, 
{image data tensor: image data}) 

# 经 过 卷 积 神经 网 络 处 理 的 结果 是 一 个 四 维 数组 ， 需 要 将 这 个 结果 压缩 成 一 个 特征 

# 癌 量 (一 维 数组 )。 

bottleneck values’ = np.squeeze (bottleneck values) 

return=bott ieneck-:values 


# 这 个 函数 获取 一 张 图 片 经 过 Inception-v3 模型 处 理 之 后 的 特征 向 量 。 这 个 函数 会 先 试图 寻找 
# 已 经 计算 且 保 存 下 来 的 特征 向 量 ， 如 果 找 不 到 则 先 计算 这 个 特征 向 量 ， 然 后 保存 到 文件 。 
defsgetonsoreate=bot tienecrl( 
sessy image. listsy: Jabel name, :index, 
Category; ”Jpeg data tensor;y™” bottleneck tensor): 
# 获取 一 张 图 片 对 应 的 特征 向 量 文件 的 路 径 。 
label lists = image lists[label namel] 
sub dirs=*“Label liststdir"] 
sub dir path = “os.path:,join(CACHE: DIR, sub dir) 
if not os.path.exists(sub dir path): os.makedirs (Sub dir path) 
bottleneck path = get bottleneck path'\ 
image lists, label name， index, category) 


# 如 果 这 个 特征 向 量 文件 不 存在 ， 则 通过 Inception-v3 模型 来 计算 特征 向 量 ， 并 将 计算 的 结果 
# 存 入 文件 。 
if not os.path.exists (bottleneck path): 

# 获取 原始 的 图 片 路 径 。 

image path = get image Path 人 

image lists, INPUT DATA, label name, index, category) 

# 获取 图 片 内 容 。 

image data = gfile.FastGFile(image path, ‘'rb.').read{() 

# 通过 Inception-v3 模型 计算 特征 问 量 。 

bottleneck values = run bottleneck on image 人 

sess, image data, jpeg data tensor, bottleneck tensor) 

# 将 计算 得 到 的 特征 问 量 存 入 文件 。 

bottleneck string = ';'.Join(str (x) for x in bottleneck values) 

with open (bottleneck path, 'w'). as; bottieneck file: 

bottleneck file.write(bottleneck string) 

else: 

# 直接 从 文件 中 获取 图 片 相 应 的 特征 向 量 。 

with open(bottleneck path, 'r') as bottleneck file: 

bottleneck string = bottileneck file.read!() 

bottleneck values = [float (x) for x in bottleneck string.split(',"')] 

# 返回 得 到 的 特征 向 量 。 


return bottleneck values 
# 这 个 函数 随机 获取 一 个 batch 的 图 片 作 为 训练 数据 。 
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def get random cached bottlenecks( 
sess, n classes, image lists, how many, category, 
jpeg data tensor, bottleneck tensor): 
bottlenecks = [|] 
ground truths = [{] 
for In range (how many) : 


# 随机 一 个 类 别 和 图 片 的 编号 加 入 当前 的 训练 数据 。 
label index = random.randrange (n classes) 
Label name = “list(image lists.keys'()) [label index] 
image index = random.randrange (65536) 
Docelenecku=sgetaorncreatesbottlieneckl 
sess, image lists, label name, image index, category, 
jpeg data tensor; bottleneck tensor) 
ground truth = np.zeros(n' classes, dtype=np.float32) 
ground truthllabel index]: = 1.0 
bottlenecks.append (bottleneck) 
ground truths.append (ground trutnh) 


return bottlenecks, ground truths 


# 这 个 函数 获取 全 部 的 测试 数据 。 在 最 终 测试 的 时 候 需 要 在 所 有 的 测试 数据 上 计算 正确 率 。 
defesgecstestsbotkclenecksi(sess7r image-listsr en classes, 
JPegsaata tensorr bottleneck tensor): 
bottlenecks = [] 
ground truths = [] 
label name 1ist = list(inmage. lists.keys'()) 
# 枚 举 所 有 的 类 别 和 每 个 类 别 中 的 测试 图 片 。 
for label index, label name in enumerate (Labe]l name 1ist): 
Category = 'testing' 
for index, unused base name in enumerate ( 
image lists[label name] [category]): 
# 通过 Inception-v3 模型 计算 图 片 对 应 的 特征 向 量 ,并 将 其 加 入 最 终 数据 的 列表 。 
bottlieneck = get or create’bottleneck! 
sess, image lists, label name, index, category, 
jpeg data tensor, bottleneck tensor) 
ground truth = np.zeros(n classes, dtype=np.float32) 
ground truth[label index] = 1.0 
bottlenecks .append (bottleneck) 
ground truths.append (ground truth) 
return bottlenecks, ground truths 


def main( ): 


# 读 取 所 有 图 片 。 
image lists= create image lists (TEST PERCENTAGE, VALIDATION PERCENTAGE) 
n classes =- len(image lists'.keys ()) 
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# 读 取 已 经 训练 好 的 Inception-v3 模型 ,谷歌 训练 好 的 模型 保存 在 了 GraphDef Protocol 
# Buffer 中 ， 里 面 保存 了 每 一 个 节点 取 值 的 计算 方法 以 及 变脸 的 取 值 。TensorFlow 模型 持 
# 久 化 的 问题 在 第 5 章 中 有 详细 的 介绍 。 
with gfile.FastGFile(os.path.join (MODEL DIR, MODEL FILE), ‘rb') as 工 : 

graph“def' =. tf.GraphDef () 

graph:Adef:ParseFromString(f.read()) 
# 加 载 读 取 的 Inception-v3 模型 , 并 返回 数据 输入 所 对 应 的 张 量 以 及 计算 瓶颈 层 结 果 所 对 应 
# 的 张 量 。 , 
bottleneck tensor, jpeg data tensor = tf.import graph def'\ 

graph def, 

return elements=[BOTTLENECK TENSOR NAME, JPEG DATA TENSOR NAME]) 


# 定义 新 的 神经 网 络 输入 , 这 个 输入 就 是 新 的 图 片 经 过 Inception-v3 模型 前 向 传播 到 达 瓶 有 贷 层 
# 是 的 节点 取 值 。 可 以 将 这 个 过 程 类 似 的 理解 为 一 种 特征 提取 。 
pottieneck input = tfsplaceholder( 

tf.float32, [None, BOTTLENECK TENSOR SIZE], 

name='BottleneckInputPlaceholder') 
# 定义 新 的 标准 答案 输入 。 
ground ' truth input;:= tf.placeholder'\( 

tf.float32, [None, n classes], name='GroundTruthInput') 
# 定义 一 层 全 链接 层 来 解决 新 的 图 片 分 类 问题 。 因为 训练 好 的 Inception-v3 模型 已 经 将 原始 
# 的 图 片 抽象 为 了 更 加 容易 分 类 的 特征 向 量 了 ， 所 以 不 需要 再 训练 那么 复杂 的 神经 网 络 来 完成 
# 这 个 新 的 分 类 任务 。 
with tf.name scope('final training ops'): 

weights = tf.Variable (tf.truncated normal ( 

[BOTTLENECK TENSOR SIZE, n classes], stddev=0.001)) 

biases = tf.Variable (tf.zeros([n classes])) 

logits = tf.matmul (bottleneck input, weights) + biases 

final tensor ="tf.nn.softtmax(LJog1its,) 


# 定义 交叉 烂 损失 函数 。 
Cross entropy = tf.nn.softmax cross entropy with logits( 
logits,ground truth input) 
cross entropy mean = tf.reduce meanl(cross entropy) 
train stepss tf.train.GradientDescentOptimizer (LEARNING RATE)\ 
.minimize (cross entropy mean) 


# 计算 正确 率 。 
with tf.name scope('evaluation'): 
Correctaprediction”= tf.equal (tf.argmax (final tensor, 1), 
tf.argmax (ground truth input, 1)) 
evaluationstep =; tf.reduce mean\ 
EECastteorrect predictliontfts floatse)y 


with tf.Session() as sess: 
initn=s”tt=initlialize all varriables'() 


ww ai bbt.com DODODDDDOD 





第 6 章 图 像 识别 与 卷 和 R 神 经 网 络 


全 SSE ) 


# 训练 过 程 。 
fOr in range (STEPS): 
# 每 次 获取 一 个 batch 的 训练 数据 。 
train bottlenecks, train ground truth = \ 
get random cached bottlenecks( 
sess, n Classes7 image lists, BATCH, 
‘training', jpeg data tensor, bottleneck tensor) 
sess.run(train step, 
feed dict={bottleneck :input: train bottlenecks;s 
ground. truth Anput: traingqround truth}) 


# 在 验证 数据 上 测试 正确 率 。 
Tf: SS 00% =s= OPOBSL: ris.STEPS:: 
validation bottlenecks, validation ground truth = \ 
get random cached bottlenecks!( 
sess, n classes, Image- lists, BATCH; 
'validation', JjJpeg data tensor, bottleneck tensor) 
validation accuracy = sess.run'( 
evaluation step, feed dict=1 
bottleneck input: validation bottlenecks, 
ground truth input: validation ground truth}) 
a Step %d: We eh on random sampled ' 
$d examples = %.1f%%T' % 
(Li:BATCH. 人 大 二 二 DO)) 


# 在 最 后 的 测试 数据 上 测试 正确 率 。 
test bottlenecks, test ground truth = get test bottlenecks:( 
sess, image lists, n classes, jpeg: data. tensor, 
bottleneck tensor) 
test accuracy = sess.run(evaluation step, feed®s dict={ 
bottleneck input: test bottlenecks, 
ground: trutmiinput: test 0 ER 
print('Final test accuracy = et (CestraccuraC ye Ed 0) 
if "Tame == "Marin 
tf ,appirunt,) 


运行 上 面 的 程序 将 需要 大 约 40 分 钟 (数据 处 理 35 分 钟 ， 训 练 5 分 钟 )， 可 以 得 到 类 似 
下 面 的 结果 : 


Step 0: Validation accuracy on random sampled 100 examples = 44.0% 
Step 200: Validation accuracy on random sampled 100 examples = 79.0% 
Step 400: Validation accuracy on random sampled 100 examples = 85.0% 
Step 600: Validation accuracy on random sampled 100 examples = 92.0% 
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‘Step 800: Validation accuracy on random sampled 100 examples = 87.0% 
Step 1000: Validation accuracy on random sampled 100 examples = 93.0% 


Step 3999: Validation accuracy on random sampled 100 examples = 94.0% 
Final test accuracy = 93.6% 


从 上 面 的 结果 可 以 看 到 , 模型 在 新 的 数据 集 上 很 快 能 够 收敛 , 并 达到 还 不 错 的 分 类 效果 。 
小 结 


在 本 章 中 详细 介绍 了 如 何 通过 卷 积 神经 网 络 解决 图 像 识 别 问题 。 首 先 ， 在 6.1 节 中 讲 
解 了 什么 是 图 像 识 别 问 题 ， 并 介绍 了 图 像 识 别 问 题 中 的 一 些 经 典 公 开 数 据 集 。 在 这 一 节 中 
介绍 了 不 同 算法 在 这 些 公开 数据 集 上 的 表现 ， 并 指出 卷 积 神经 网 络 给 这 个 领域 带 来 了 质 的 
飞越 。 接 着 ， 在 6.2 节 中 介绍 了 卷 积 神经 网 络 的 基本 思想 。 在 这 一 节 中 指出 了 全 连接 神经 
网 络 在 处 理 图 像 数 据 上 的 不 足 之 处 , 并 给 出 了 经 典 的 卷 积 神经 网 络 中 包含 的 不 同 网 络 结构 。 

在 6.3 节 中 详细 讲述 了 卷 积 神经 网 络 中 比较 重要 的 两 个 网 络 结构 卷 积 层 和 池 化 层 。 
本 节 详 细 介 绍 了 这 两 种 网 络 结构 的 前 向 传播 算法 ， 并 给 出 了 TensorFlow 中 的 代码 实现 。 在 
6.4 节 中 ,通过 两 种 经 典 的 卷 积 神经 网 络 模型 介绍 了 如 何 设计 一 个 卷 积 神经 网 络 的 架构 ， 并 
介绍 了 配置 卷 积 层 和 池 化 层 中 设置 的 一 些 经 验 。 在 这 一 节 中 给 出 了 一 个 完成 的 TensorFlow 
程序 来 实现 LeNet-5 模型 , 通过 这 个 模型 可 以 将 MNIST 数据 集 上 的 正确 率 进一步 提升 到 大 
约 99.4%。 这 一 节 中 还 简单 介绍 了 TensorFlow-Slim 工具 ， 通 过 这 个 工具 可 以 巨 幅 提高 实现 
复杂 神经 网 络 的 编程 效率 。 最 后 在 6.5 节 中 ， 介 绍 了 迁移 学 习 的 概念 并 给 出 了 一 个 完整 的 
TensorFlow 来 实现 迁移 学 习 。 通 过 迁移 学 习 ， 可 以 使 用 少量 训练 数据 在 短 时 间 内 训练 出 效 
果 还 不 错 的 神经 网 络 模型 。 

在 这 一 章 中 , 通过 图 像 识别 问题 介绍 了 卷 积 神经 网 络 。 通 过 这 种 特殊 结构 的 神经 网 络 ， 
可 以 将 图 像 识 别 问 题 的 准确 率 提高 到 一 个 新 的 层次 。 除 了 改进 模型 ，TensorFlow 还 提供 了 
很 多 图 像 处 理 的 函数 以 方便 图 像 处 理 。 在 第 7 章 中 将 具体 介绍 这 些 函 数 。 同 时 也 将 介绍 如 
何 使 用 TensorFlow 更 好 地 处 理 输入 数据 。 
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在 第 6 章 中 话 细 介 绍 了 卷 积 神经 网 络 ， 并 提 到 通过 卷 积 神经 网 络 给 图 像 识 别 技术 带 来 
了 突破 性 进展 。 这 一 章 将 从 另外 一 个 维度 来 进一步 提升 图 像 识 别 的 精度 以 及 训练 的 速度 。 
喜欢 摄影 的 读者 都 知道 图 像 的 亮度 、 对 比 度 等 属性 对 图 像 的 影响 是 非常 大 的 ， 相 同 物体 在 
不 同 亮度 、 对 比 度 下 差别 非常 大 。 然 而 在 很 多 图 像 识 别 问题 中 ， 这 些 因素 都 不 应 该 影响 最 
后 的 识别 结果 。 所 以 本 章 将 介绍 如 何 对 图 像 数 据 进行 预 处 理 使 训练 得 到 的 神经 网 络 模型 尽 
可 能 小 地 被 无 天 因素 所 影响 。 但 与 此 同时 ， 复 杂 的 预 处 理 过 程 可 能 导致 训练 效率 的 下 降 。 
为 了 减 小 预 处 理 对 于 训练 速度 的 有 影响， 在 本 章 中 也 将 详细 地 介绍 TensorFlow 中 多 线程 处 理 
输入 数据 的 解决 方案 。 

本 章 将 根据 数据 预 处 理 的 先后 顺序 来 组 织 不 同 的 小 节 。 首 先 在 7.1 节 中 将 介绍 如 何 统 
一 输入 数据 的 格式 ， 使 得 在 之 后 系统 中 可 以 更 加 方便 地 处 理 。 来 自 实际 问题 的 数据 往往 有 
很 多 格式 和 属性 ， 这 一 节 将 介绍 的 TFRecord 格式 可 以 统一 不 同 的 原始 数据 格式 ， 并 更 加 有 
效 地 管理 不 同 的 属性 。 接 着 在 7.2 节 中 将 介绍 如 何 对 图 像 数 据 进行 预 处 理 。 这 一 节 将 列举 
TensorFlow 支持 的 图 像 处 理 函 数 ， 并 介绍 如 何 使 用 这 些 处 理 方式 来 弱化 与 图 像 识 别 无 关 的 
因素 。 复 杂 的 图 像 处 理 函 数 有 可 能 降低 训练 的 速度 ， 为 了 加 速 数据 预 处 理 过 程 ，7.3 节 将 完 
整地 介绍 TensorFlow 多 线程 数据 预 处 理 流 程 。 在 这 一 节 中 将 首先 介绍 TensorFLow 中 多 线 
程 和 队列 的 概念 ， 这 是 TensorFlow 多 线程 数据 预 处理 的 基本 组 成 部 分 。 然 后 将 具体 介绍 数 
据 预 处 理 流程 中 的 每 个 部 分 。 在 本 节 的 最 后 将 给 出 一 个 完整 的 多 线程 数据 预 处 理 流程 图 和 
程序 框架 。 


7.1 TFRecord 输入 数据 格式 
TensorFlow 提供 了 一 种 统一 的 格式 来 存储 数据 ， 这 个 格式 就 是 TFRecord。6.5 节 给 出 
本 了 一 个 程序 来 处 理 花 和 打分 类 的 数据 。 在 这 个 程序 中 ， 使 用 了 一 个 从 类 别名 称 到 所 有 数据 列 
。 
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表 的 词典 来 维护 图 像 和 类 别 的 关系 。 这 种 方式 的 可 扩展 性 非常 差 ， 当 数据 来 源 更 加 复杂 、 
每 一 个 样 例 中 的 信息 更 加 丰富 之 后 ， 这 种 方式 就 很 难 有 效 地 记录 输入 数据 中 的 信息 了 。 于 
是 TensorFlow 提供 了 TFRecord 的 格式 来 统一 存储 数据 。 这 一 节 将 介绍 如 何 使 用 TFRecord 
来 统一 输入 数据 的 格式 。 


7.1.1 TFRecord 格式 介绍 


TFRecord 文件 中 的 数据 都 是 通过 tf.train.Example Protocol Buffer 的 格式 存储 的 。 以 下 
代码 给 出 了 tftrain.Example 的 定义 。 
message Example { 


Features features = 1; 


}; 


message Features { 
map<string, Feature> feature = 1; 


7 


message Feature { 
oneof kind { 


BytesList bytes list-=.1; 
FloatList float list -=*27? 
Int64List int64 list = 3; 


} 
}; 
从 以 上 代码 可 以 看 出 长 train.Example 的 数据 结构 是 比较 简洁 的 。tf.train.Example 中 包 
含 了 一 个 从 属性 名 称 到 取 值 的 字典 。 其 中 属性 名 称 为 一 个 字符 串 ， 属 性 的 取 值 可 以 为 字符 
串 〈BytesList)， 实 数列 表 〈FloatList) 或 者 整数 列表 (Int64List)。 比 如 将 一 张 解码 前 的 图 
像 存 为 一 个 字符 串 ， 图 像 所 对 应 的 类 别 编号 存 为 整数 列表 。 在 7.1.2 小 节 中 将 给 出 一 个 使 用 
TFRecord 的 具体 样 例 。 


7.1.2 ”TFRecord 样 例 程序 


本 小 节 将 给 出 具体 的 样 例 程序 来 读 写 TFRecord 文件 ,下 面 的 程序 给 出 了 如 何 将 MNIST 
输入 数据 转化 为 TFRecord 的 格式 。 


import tensorflow as tf 
from tensorflow.examples.tutorials.mnist import input data 
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import numpy as np 


# 生成 整数 型 的 属性 。 
def nt642feature (Value)-: 
return tf.train.Feature (int64 list=tf.train.Int64List (value=[value])) 


# 生成 字符 串 型 的 属性 。 
dets=>bytessfeature(vValue). 


return tf.train.Feature (bytes list=tf.train.BytesList (value=[value])) 


mnist = input data.read data _ Sets 
"/path/to/mnist/data", dtype=tf.uint8, one hot=True) 
images = mnist.train.images 

# 训练 数据 所 对 应 的 正确 答案 ， 可 以 作为 一 个 属性 保存 在 TFRecord 中 。 
labels = mnist.train.labels 

# 训练 数据 的 图 像 分 辩 率 ， 这 可 以 作为 Example 中 的 一 个 属性 。 

pixels = images.shapel[ll1] 


num examples = mnist.train.num examples 


# 输出 TFRecord 文件 的 地 址 。 


filename = "/path/to/output.tfrecords" 
# 创建 一 个 writer 来 写 TFRecord 文件 。 
writer = tf.python io.TFRecordWriter (filename) 
for index in range (num examples): 
# 将 图 像 矩阵 转化 成 一 个 字符 串 。 
image raw = images [index] .tostring() 
# 将 一 个 样 例 转化 为 Example Protocol Buffer， 并 将 所 有 的 信息 写 入 这 个 数据 结构 。 


example = tf.train.Example (features=tf .traln.Features (feature={ 


DixXelSs re TEodsteature (ples) 
‘'Jabel': int64 feature (np.argmax (labels[index])), 
'image raw': bytes feature (image raw)})) 


# 将 一 个 Example 写 入 TFRecord 文件 。 
writer.write (example.SerializeToString()) 
writer.close() 


以 上 程序 可 以 将 MNIST 数据 集中 所 有 的 训练 数据 存储 到 一 个 TFRecord 文件 中 。 当 数 


据 量 较 大 时 , 也 可 以 将 数据 写 入 多 个 TFRecord 文件 。TensorFlow 对 从 文件 列表 中 读 取 数据 
提供 了 很 好 的 支持 ， 在 7.3.2 小 节 中 将 详细 介绍 。 以 下 程序 给 出 了 如 何 读 取 TFRecord 文件 


中 的 数据 。 
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ijmport tensorflow as tf 


# 创建 一 个 reader 来 读 取 TFRecord 文件 中 的 样 例 。 

reader = 七 ff.TERecordReader () 

# 创建 一 个 队列 来 维护 输入 文件 列表 ， 在 7.3.2 小 节 中 将 更 加 详细 的 介绍 

# tf.train.string input producer 函数 。 

filename queue = tf.train.string input producer\( 
["/path/to/output.tfrecords"]) 


# 从 文件 中 读 出 一 个 样 例 。 也 可 以 使 用 read up_to 函数 一 次 性 读 取 多 个 样 例 。 
~ serializedsexample’ =ireader.read(filename queue) 
# 解析 读 入 的 一 个 样 例 。 如 果 需 要 解析 多 个 样 例 ， 可 以 用 parse example 函数 。 
features “=:tf,parse single example'\ 
serialized example, 
features={ 
# TensorFlow 提供 两 种 不 同 的 属性 解析 方法 ,一 种 是 方法 是 tf.FixedLenFeature,， 
# 这 种 方法 解析 的 结果 为 一 个 Tensor。 另 一 种 方法 是 tf .VarLenFeature, 这 种 方法 
# 得 到 的 解析 结果 为 SparseTensor， 用 于 处 理 稀 疏 数据 。 这 里 解析 数据 的 格式 需要 和 
# 上 面 程序 写 入 数据 的 格式 一 致 。 
'image raw': tf.FixedLenFeature([}], tf.string), 
'pixels': tf.FixedLenFeature([], tf.int64), 
'label': tf.FixedLenFeature([], tf.int64), 
}) 


# tf.decode_ raw 可 以 将 字符 串 解析 成 图 像 对 应 的 像素 数组 。 
images = tf.decode raw(features['image raw'], tf.uint8) 
labels ==tf casti(featuresl labed sl, tt int32) 
pixels = tf.cast (features['pixels'], tf.int32) 


sess = tf.Session'() 


# 启动 多 线程 处 理 输入 数据 ，7. 3 节 将 更 加 详细 地 介绍 TensorFlow 多 线程 处 理 。 
coord = tf.train.Coordinator () 
threads = tf.train.start queue runners (sess=sess, coord=coord) 


# 每 次 运行 可 以 读 取 TFRecord 文件 中 的 一 个 样 例 。 当 所 有 样 例 都 读 完 之 后 ， 在 此 样 例 中 程序 
会 在 重头 读 取 。 
FOPTmie mangell: 


image, label, pixel = sess.run([images, labels, pixels]) 


7.2 ”图像 数据 处 理 


在 之 前 的 几 章 中 多 次 使 用 到 了 图 像 识 别 数据 集 。 然 而 在 之 前 的 章节 中 都 是 直接 使 用 图 
这 4 
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像 原始 的 像素 矩阵 。 这 一 节 将 介绍 图 像 的 预 处 理 过程 。 通 过 对 图 像 的 预 处 理 ， 可 以 尽量 如 
免 模型 受到 无 关 因素 的 影响 。 在 大 部 分 图 像 识别 问题 中 ， 通 过 图 像 预 处 理 过 程 可 以 提高 模 
型 的 准确 率 。 在 7.2.1 小 节 中 将 先 介绍 TensorFlow 提供 的 主要 图 像 处 理 函 数 ， 并 给 出 具体 
图 像 在 处 理 前 和 处 理 后 的 变化 让 读者 有 一 个 直观 的 了 解 。 然 后 在 7.2.2 小 节 中 将 给 出 一 个 完 
整 的 图 像 预 处 理 流程 。 


本 | ER 图 像 处 理 果 数 


TensorFlow 提供 了 几 类 图 像 处 理 函 数 ， 在 本 小 节 中 将 一 一 介绍 这 些 图 像 处 理 函 数 。 
图 像 编码 处 理 


在 之 前 的 章节 中 提 到 一 张 RGB 色彩 模式 的 图 像 可 以 看 成 一 个 三 维和 矩阵 , 矩阵 中 的 每 一 
个 数 表 示 了 图 像 上 不 同位 置 ， 不 同 颜色 的 亮度 。 然 而 图 像 在 存储 时 并 不 是 直接 记录 这 些 矩 
阵 中 的 数字 ， 而 是 记录 经 过 压缩 编码 之 后 的 结果 。 所 以 要 将 一 张 图 像 还 原 成 一 个 三 维 矩阵 ， 
需要 解码 的 过 程 。TensorFlow 提供 了 对 jpeg 和 png 格式 图 像 的 编码 /解码 函数 。 以 下 代码 示 
范 了 如 何 使 用 TensorFlow 中 对 jpeg 格式 图 像 的 编码 /解码 函数 。 

# matplotlib.pyplot 是 一 个 Python 的 画图 工具 。 在 这 一 节 中 将 使 用 这 个 工具 来 可 视 

# 化 经 过 TensorFlow 处 理 的 图 像 。 


import matplotlib.pyplot as pilt 
import tensorflow as tf 


# 读 取 图 像 的 原始 数据 。 
image raw data = tf.gfile.FastGFile("/path/to/picture", 'r').read!() 


with tf.Session() as sess: 
# 将 图 像 使 用 jpeg 的 格式 解码 从 而 得 到 图 像 对 应 的 三 维和 矩阵 。TensorFElovw 还 提供 了 
# tf.image.decode png 函数 对 png 格式 的 图 像 进 行 解码 。 解 码 之 后 的 结果 为 一 个 
# 张 量 ， 在 使 用 它 的 取 值 之 前 需要 明确 调用 运行 的 过 程 。 
img data = tf.image.decode jpPeg(image raw data) 
print img data.eval () 
# 输出 解码 之 后 的 三 维和 矩阵 ， 上 面 这 一 行将 输出 下 面 的 内 容 。 


[6ssL60sL38j 


BQ EO 0] 


QW 关于 pyplot 更 加 详细 的 介绍 可 以 参考 http://matplotlib.org/index.html 
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# 使 用 pyplot 工具 可 视 化 得 到 的 图 像 。 可 以 得 到 图 7-1 中 展示 了 的 图 像 。 
plt.imshow (img data.eval ()) 
plt.show() 


# 将 数据 的 类 型 转化 成 实数 方便 下 面 的 样 例 程序 对 图 像 进行 处 理 。 
img data = tf.image.convert image dtype (img data, dtype=tf.float32) 


# 将 表示 一 张 图 像 的 三 维 矩 阵 重 新 按照 jpeg 格式 编码 并 存 入 文件 中 。 打 开 这 张 图 像 ， 
# 可 以 得 到 和 原始 图 像 一 样 的 图 像 。 z z 
encoded image = tf.image.encode jpeg (img data) 
withstft ortilevGrrle (lu /path/to/output. wb) as 上: 

f.write (encoded image.eval ()) 


图 7-1 显示 了 上 面 代码 可 视 化 出 来 的 一 张 图像 ， 在 下 面 的 篇 幅 中 将 继续 使 用 这 张 图 像 
来 介绍 TensorFlow 其 他 图 像 处 理 的 函数 。 





2000 





0 500 1000 1500 2500 


图 7-1 本 节 样 例 代 码 中 使 用 到 的 原始 图 像 ” 
图 像 大 小 调整 
一 般 来 说 ， 网 络 上 获取 的 图 像 大 小 是 不 固定 ， 但 神经 网 络 输 入 节点 的 个 数 是 固定 的 。 


QD 原始 图 像 是 彩色 的 ， 在 GitHub 代码 库 里 有 原始 图 像 。 
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所 以 在 将 图 像 的 像素 作为 输入 提供 给 神经 网 络 之 前 ， 需 要 先 将 图 像 的 大 小 统一 。 这 就 是 图 
像 大 小 调整 需要 完成 的 任务 。 图 像 大 小 调整 有 两 种 方式 ， 第 一 种 是 通过 算法 使 得 新 的 图 像 
”尽量 保存 原始 图 像 上 的 所 有 信息 。TensorFlow 提供 了 四 种 不 同 的 方法 ， 并 且 将 它们 封装 到 
了 timage.resize_ images 函数 。 以 下 代码 示范 了 如 何 使 用 这 个 函数 。 


# 加 载 原始 图 像 ， 定 义 会 话 等 过 程 和 图 像 编码 处 理 中 代码 一 致 ， 在 下 面 的 样 例 中 就 全 部 略 去 了 ， 
# 假设 img_data 是 已 经 解码 且 进 行 过 类 型 转化 的 图 像 。 


# 通过 tf.image.resize images 函数 调整 图 像 的 大 小 。 这 个 函数 第 一 个 参数 为 原始 图 像 ， 
# 第 二 个 和 第 三 个 参数 为 调整 后 图 像 的 大 小 ，method 参数 给 出 了 调整 图 像 大 小 的 算法 。 


resized = tf.image.resize images (img data, 300, 300, method=0) 


# 输出 调整 后 图 像 的 大 小 ， 此 处 的 结果 为 (300，300，?) 。 表 示 图 像 的 大 小 是 300x300， 
# 但 图 像 的 深度 在 没有 明确 设置 之 前 会 是 问号 。 
PEImnesarrnogsaeaata2getcSsnapeit) 


# 通过 pyplot 可 视 化 的 过 程 和 图 像 编 码 处 理 中 给 出 的 代码 一 致 ， 在 以 下 代码 中 也 将 略 去 。 
表 7-1 给 出 了 tfimage:resize_ images 函数 的 method 参数 取 值 对 应 的 图 像 大 小 调整 算法 。 
图 7-2 对 比 了 不 同 大 小 调整 算法 得 到 的 结果 。 
表 7-1 tf.image.resize_images 函数 中 method 参数 取 值 与 相对 应 的 图 像 大 小 调整 算法 


Ea 双 线 性 插值 法 (Bilinear interpolation) ” 
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原始 图 像 (a) 双 线 性 插值 法 〈b) 最 近邻 居 《〈c) 


Q@ 更 详细 的 介绍 可 以 参考 https:Wen.wikipedia.org/wiki/Bilinear_ interpolation。 
@ 更 详细 的 介绍 可 以 参考 https://en.wikipedia.org/wiki/Nearest-neighbor interpolation。 
@) 更 详细 的 介绍 可 以 参考 https:Wen.wikipedia.org/wiki/Bicubic interpolation 。 
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双 三 次 插值 法 〈d) 面积 插值 法 〈e) 
图 7-2 ”使 用 萎 image.resize_images 函数 中 不 同 图 像 大 小 调整 算法 的 效果 对 比 图 


从 图 7-2 中 可 以 看 出 ， 不 同 算法 调整 出 来 的 结果 会 有 细微 差别 ， 但 不 会 相差 太 远 。 除 
了 将 整 张 图 像 信息 完整 保存 ，TensorFlow 还 提供 了 API 对 图 像 进 行 裁剪 或 者 填充 。 以 下 代 
码 展 示 了 通过 tf.image.resize image with_crop_ or pad 函数 来 调整 图 像 大 小 的 功能 。 


# 通过 tf.image.resize image _ with crop or pad 函数 调整 图 像 的 大 小 。 这 个 函数 的 
# 第 一 个 参数 为 原始 图 像 ， 后 面 两 个 参数 是 调整 后 的 目标 图 像 大 小 。 如 果 原 始 图 像 的 尺寸 大 于 目标 
# 图 像 ， 那 么 这 个 函数 会 自动 截取 原始 图 像 中 居中 的 部 分 (如 图 7-3 (b) 所 示 )。 如 果 目 标 图 像 
# 大 于 原始 图 像 ， 这 个 函数 会 自动 在 原始 图 像 的 四 周 填充 全 0 背景 (如 图 7-3 (c) 所 示 )。 因 为 原 
# 始 图 像 的 大 小 为 1797x2673, 所 以 下 面 的 第 一 个 命令 会 自动 剪裁 , 而 第 二 个 命令 会 自动 填充 。 
Cropeds= tf.image.resize image with crop or pad(img data, 1000,-1000) 
padded = tf.image.resize image with crop or padl(limg data, 3000, 3000) 





00| 500 





10090 300 2000 1300 2000 72500 3000 


原始 图 像 (a) 自动 裁剪 到 1000X1000 (b 自动 填充 到 3000X3000 (c) 
图 7-3 使 用 timage.resize image with_crop_or pad 函数 调整 图 像 大 小 结果 对 比 图 


TensorFlow 还 文 持 通过 比例 调整 图 像 大 小 ， 以 下 代码 给 出 了 一 个 样 例 。 

# 通过 tf.image. central crop 函数 可 以 按 比 例 裁剪 图 像 。 这 个 函数 的 第 一 个 参数 为 原始 图 
# 像 ， 第 二 个 为 调整 比例 ， 这 个 比例 需要 是 一 个 (0,1] 的 实数 。 图 7-4 (pb) 中 显示 了 调整 之 

# 后 的 图 像 。 : 

central:- cropped = tf.image.central crop(img data, 0.5) 

上 面 介 绍 的 图 像 裁 前 函数 都 是 截取 或 者 填充 图 像 中 间 的 部 分 。TensorFlow 也 提供 了 
tf.image.crop to bounding box 冰 数 和 tfimage.pad to bounding box 函数 来 剪裁 或 者 填充 给 
定 区 域 的 图 像 。 这 两 个 函数 都 要 求 给 出 的 尺寸 满足 一 定 的 要 求 ， 否 则 程序 会 报错 。 比 如 在 
使 用 给 image.crop to bounding box 函数 时 ，TensorFlow 要 求 提供 的 图 像 尺 寸 要 大 于 目标 尺 
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寸 ， 也 就 是 要 求 原始 图 像 能 够 裁剪 出 目标 图 像 的 大 小 。 这 里 就 不 再 给 出 每 个 函数 的 具体 样 
例 ， 有 兴趣 的 读者 可 以 自行 参考 TensorFlow 的 API 文档 。 





A i 3 让 
原始 图 像 (a) 截取 中 间 50% 的 图 像 (b 
图 7-4 ”使 用 tf.image. central crop 函数 调整 图 像 大 小 结果 对 比 图 


图 像 翻转 
TensorFlow 提供 了 一 些 函 数 来 文 持 对 图 像 的 翻转 。 以 下 代码 实现 了 将 图 像 上 下 翻转 、 
左右 翻转 以 及 沿 对 角 线 翻转 的 功能 。 
# 将 图 像 上 下 翻转 ， 翻 转 后 的 效果 见 图 7-5 (b) 。 
flipped = tf.image.flip up down (img data) 
# 将 图 像 左右 翻转 ， 翻 转 后 的 效果 见 图 7-5 (c)。 
flipped = tf.image.flip left right (img data) 
# 将 图 像 沿 对 角 线 翻转 ， 翻 转 后 的 效果 见 图 7-5 (d) 。 


transposed = tf.image.transpose image (img data) 









3D03 15n0 250200 


上 下 翻转 〈b) 


左右 翻转 〈c) 沿 对 角 线 翻转 〈d) 
图 7-5 图 像 翻转 效果 图 
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在 很 多 图 像 识别 问题 中 ， 图 像 的 翻转 不 会 影响 识别 的 结果 。 于 是 在 训练 图 像 识 别 的 神 
经 网 络 模型 时 ， 可 以 随机 地 翻转 训练 图 像 ， 这 样 训 练 得 到 的 模型 可 以 识别 不 同 角度 的 实体 。 
比如 假设 在 训练 数据 中 所 有 的 猫 头 都 是 向 右 的 ， 那 么 训练 出 来 的 模型 就 无 法 很 好 的 识别 猫 
头 同 左 的 独 。 虽 然 这 个 问题 可 以 通过 收集 更 多 的 训练 数据 来 解决 ， 但 是 通过 随机 翻转 训练 
图 像 的 方式 可 以 在 零 成 本 的 情况 下 很 大 程度 地 缓解 该 问题 。 所 以 随机 翻转 训练 图 像 是 一 种 
很 常用 的 图 像 预 处 理 方式 。TensorFlow 提供 了 方便 的 API 完成 随机 图 像 翻 转 的 过 程 。 


# 以 一 定 概率 上 下 翻转 图 像 。 

flipped = tf.image.random flip up down (img data) 

# 以 一 定 概率 左右 翻转 图 像 。 

flipped = tf.image.random flip left right (img data) 


图 像 色 彩 调整 

和 图 像 翻 转 类 似 ， 调 整 图 像 的 亮度 、 对 比 度 、 饱 和 度 和 色相 在 很 多 图 像 识 别 应 用 中 都 
不 会 影响 识别 结果 。 所 以 在 训练 神经 网 络 模型 时 ， 可 以 随机 调整 训练 图 像 的 这 些 属性 ， 从 
而 使 得 训练 得 到 的 模型 尽 可 能 小 地 受到 无 关 因素 的 影响 。TensorFlow 提供 了 调整 这 些 色 彩 
相关 属性 的 API。 以 下 代码 显示 了 如 何 修改 图 像 的 之 度 。 


# 将 图 像 的 亮度 -0.5， 得 到 的 图 像 效 果 如 图 7-6 (b) 所 示 。 
ad]justed2= tf.image.adjust brightness'(img datay >-—0.5) 
# 将 图 像 的 亮度 -0 .5， 得 到 的 图 像 效 果 如 图 7-6 (c) 所 示 。 

adjusted = tf.image.adjust brightness (img data, 0.35) 
# 在 [-max_delta，max_delta) 的 范围 随机 调整 图 像 的 亮度 。 


adjusted = tf.image.random brightness (Image max delta) 


1 i 
7 


~ 


和 





类 
= 


"I 





1 
ee 
9 S90. i000 1305 coo -20 


亮度 -0.5 (b) 亮度 +0.5 (c) 
图 7-6 图 像 亮 度 调整 效果 图 ” 


以 下 代码 显示 了 如 何 调整 图 像 的 对 比 度 。 
# 将 图 像 的 对 比 度 -5， 得 到 的 图 像 效 果 如 图 7-7 (b) 所 示 。 


adjusted = tf.image.adjust contrast (img data, -5) 
# 将 图 像 的 对 比 度 +15， 得 到 的 图 像 效 果 如 图 7-7 (c) 所 示 。 


adjusted = tf.image.adjust contrast(img data, 5) 








500 1926 1509 2200 7520 





QD 在 黑白 图 片上 色相 的 调整 不 是 特别 明显 ， 在 彩色 图 片上 的 效果 会 比较 明显 。 
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# 在 [lower，upper] 的 范围 随机 调整 图 的 对 比 度 。 


adjusted = tf.image.random contrast (image, lower, upper) 


00G 





Q 500 1060 5050 2000 2300 


1000 1500 


原始 图 像 (a) 对 比 度 -5 (b) 对 比 度 +5 (ce) 
图 7-7 图 像 对 比 度 调整 效果 图 


以 下 代码 显示 了 如 何 调整 图 像 的 色相 。 


# 下 面 四 条 命令 分 别 将 色相 加 0.1、0.3、0.6 和 0.9, 得 到 的 效果 分 别 在 
# 图 7-8 CDs (Oy (GQ) (e) 中 展示 。 


adjusted = tf.image.adjust hue (img data, 0.1) 
adjusted = tf.image.adjust hue (img data, 0.3) 
adjusted = tf.image.adjust hue (img data, 0.6) 
adjusted = tf.image.adjust hue (Img data, 0.9) 


# 在 [-max delta， max delta] 的 范围 随机 调整 图 像 的 色相 。 
# max_delta 的 取 值 在 [0，0.5] 之 间 。 


adjusted = tf.image.random hue (image, max delta) 
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原始 图 像 (a) 色相 +0.1 (b) ” ”色相 +0.3 (c) 
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500 后 


1000 









1500 “2000 


色相 +0.6(d) 色相 40.90e 
图 7-8 图 像 色相 调整 效果 图 
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以 下 代码 显示 了 如 何 调整 图 像 的 饱和 度 。 
# 将 图 像 的 饱和 度 -5， 得 到 的 图 像 效 果 如 图 7-9 (b) 所 示 。 


adgusted = tfaLimage.adjust, saturation(img datars:s) 
# 将 图 像 的 饱和 度 +5， 得 到 的 图 像 效 果 如 图 7-9(c) 所 示 。 
adjusted = tf.image.adjust saturation(img data, 5) 
# 在 [lower，upper] 的 范围 随机 调整 图 的 饱和 度 。 


adjusted = tf.image.random saturation (image, lower, upper) 


520 BS 










3500 


原始 图 像 (a 饱和 度 -5$ (b 饱和 度 +5 (c 
图 7-9 ”图像 饱 和 度 调整 效果 图 


+- 站 
2000 2 四 





1500 2000 3300 2000 2500 


除了 调整 图 像 的 亮度 、 对 比 度 、 饱 和 度 和 色相 ，TensorFlow 还 提供 API 来 完成 图 像 标 
准 化 的 过 程 。 这 个 操作 就 是 将 图 像 上 的 亮度 均值 变 为 0， 方差 变 为 1。 以 下 代码 实现 了 这 个 
功能 。 

# 将 代表 一 张 图 像 的 三 维 矩 阵 中 的 数字 均值 变 为 0, 方差 变 为 1。 调整 后 的 图 像 如 图 7-10 (b) 。 


adjusted = tf.image.per image whitening (img data) 





0 2 500 1000 1500 


原始 图 像 (a) 调整 后 图 像 〈b) 
图 7-10 ”图像 标准 化 效果 图 
处 理 标注 框 


在 很 多 图 像 识 别 的 数据 集中 ， 图 像 中 需要 关注 的 物体 通常 会 被 标注 框 圈 出 来 。 
TensorFlow 提供 了 一 些 工 具 来 处 理 标 注 框 。 下 面 这 段 代码 展示 了 如 何 通 过 
tf.image.draw_bounding boxes 函数 在 图 像 中 加 入 标注 框 。 
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# 将 图 像 缩小 一 些 ， 这 样 可 视 化 能 让 标注 框 更 加 清 想 。 
img data = tf.image.resize images (img data, 180, 267, method=1) 
# tf.image.dqraw bounding boxes 隶 数 要 求 图 像 矩 阵 中 的 数字 为 实数 ， 所 以 需要 先 将 
# 图 像 矩阵 转化 为 实数 类 型 。tf .image.draw bounding boxes 函数 图 像 的 输入 是 一 个 
# bacth 的 数据 ， 也 就 是 多 张 图 像 组 成 的 四 维和 矩阵 ， 0 维 。 
batchec = EE expand_ dims ( 
tf.image. convert mage dtype (1mgodakt oar tt Eoats2 sy 
# 给 出 每 一 张 图 像 的 所 有 标注 框 。 一 个 标注 框 有 四 个 数字 ， 分 别 代表 [yin, Xmins Jrar | 
# 注意 这 里 给 出 的 数字 都 是 图 像 的 相对 位 置 。 比 如 在 180X267 的 图 像 中 ， 
# [0.35，0.47，0.5，0.56] 代 表 了 从 《〈63，125) 到 (90，150) 的 图 像 。 
bDoxes = tf constant (ll [lO O05 O05 .0.0% 0 [0 3 OA OO.56]]]) 
# 图 7-11 显示 了 加 入 了 标注 框 的 图 像 。 


result = tf.image.draw bounding boxes (batched, boxes) 





图 7-11 在 图 像 中 加 入 标注 框 ( 图 中 大 的 标注 框 标明 了 猫 脸 的 位 置 , 小 的 标注 框 标明 了 猫 的 一 只 眼睛 的 位 置 》 


和 随机 翻转 图 像 、 随 机 调整 颜色 类 似 ， 随 机 截取 图 像 上 有 信息 含量 的 部 分 也 是 一 个 提 
高 模型 健壮 性 (robustness) 的 一 和 这 样 可 以 使 训练 得 到 的 模型 不 受 被 识别 物体 大 小 


的 有 影响。 下面 的 程序 中 展示 了 如 何 通 过 tfimage.sample distorted bounding box 函数 来 完成 
随机 截取 图 像 的 过 程 。 


Boxess=ette constanti( lO 0 00909 .007 1:0 250 5, QS le 

# 可 以 通过 提供 标注 框 的 方式 来 告诉 随机 截取 图 像 的 算法 哪些 部 分 是 “有 信息 量 ” 的 。 

begin, size, bbox for draw 七 下 起 image. sample distorted , bounding box ( 
tf.shape (img data), bounding boxes=boxes) 


# 通过 标注 框 可 视 化 随机 截取 得 到 的 图 像 。 得 到 的 结果 如 图 7-12 左 侧 所 示 。 
batched = tf.expand Qlms ( 
tf=simage convertsimagesdtype(imgsdata tf. tloat32) 0) 
image with box = tf.image.draw bounding boxes (batched, bbox for draw) 
# 截取 随机 出 来 的 图 像 。 得 到 的 结果 如 图 7- 12 布 侧 所 示 。 因为 算法 带 有 随机 成 分 ， 所 以 
# 每 次 得 到 的 结果 会 有 所 不 同 。 


distorted image = tf.slice(img data, begin, size) 
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80 100 120 140 


图 7-12 ”在 图 像 中 随机 加 入 的 标注 框 〈 左 ) 以 及 通过 这 个 标注 框 截 取 的 图 像 〈 右 ) 


7.2.2 ”图 像 预 处 理 完 整 样 例 


在 7.2.1 小 节 中 话 细 讲解 了 TensorFlow 提供 的 主要 的 图 像 处 理 函 数 。 在 解决 真实 的 图 
像 识 别 问 题 时 ， We 这 一 个 小 节 将 给 出 一 个 完整 的 样 例 程序 展 
示 如 何 将 不 同 的 图 像 处 理 函 数 结合 成 一 个 完成 的 图 像 预 处 理 流程 。 以 下 TensorFlow 程序 完 
成 了 从 图 像 片 段 截取 ， Me 乡 调整 的 整个 图 像 预 处 理 过 程 。 


import tensorflow as tf 


import numpy as np 
Import matplotlib.pyplot as plt 


# 给 定 一 张 图 像 ， 随 机 调整 图 像 的 色彩 。 因 为 调整 亮度 、 对 比 度 、 饱 和 度 和 色相 的 顺序 会 影 
# 响 最 后 得 到 的 结果 ， 所 以 可 以 定义 多 种 不 同 的 顺序 。 具 体 使 用 哪 一 种 顺序 可 以 在 训练 
# 数据 预 处 理 时 随机 的 选择 一 种 。 这 样 可 以 进一步 降低 无 关 因素 对 模型 的 影响 。 
def: distort color(image, color ordering=0): 
. 1if es COLOr ordering ==.0: 
image = tf.image.random brightness (image, max delta=32. / 255.) 
image = tf.image.random saturation (image, lower=0 .3, upper=1 .5) 
image = tf.image.random hue (image, max delta=0.2) 
image = tf.image.random contrast (image, lower=0.5, upper=1 .5) 
elif color ordering == 1: 有 
image = tf.image.random saturation(image, lower=0.5, upper=1 .5) 
image = tf.image.random brightness (image, max delta=32. / 255.) 
image = tf.image.random contrast (image, lower=0.5, upper=1 .5) 
image = tf.image.random hue (image, max delta=0 .2) 
ellf COLOr Ordering == 


# 还 可 以 定义 其 他 的 排列 ， 但 在 这 里 就 不 再 一 一 列 出 。 
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return tt:clip by value(image, 0.0; 1.0) 


# 给 定 一 张 解码 后 的 图 像 、 目 标 图 像 的 尺寸 以 及 图 像 上 的 标注 框 ， 此 函数 可 以 对 给 出 的 图 像 进 行 预 
# 处 理 。 这 个 函数 的 输入 图 像 是 图 像 识别 问题 中 原始 的 训练 图 像 ， 而 输出 则 是 神经 网 络 模型 的 输入 
# 层 。 注 意 这 里 只 处 理 模 型 的 训练 数据 ， 对 于 预测 的 数据 ， 一 般 不 需要 使 用 随机 变换 的 步 又 。 
def preprocess for train(image, height, width, bbox): 
# 如 果 没 有 提供 标注 框 ， 则 认为 整个 图 像 就 是 需要 关注 的 部 分 。 
if bbox is None: 
Booxs = COnstarnm( ESD TO .0], 
dtype=tf.float32, shape=[1, 1, 4]) 
# 转换 图 像 张 量 的 类 型 。 
if image.dtype != tf.float32: 
image = tf.image.convert image dtype (image, dtype=tf.float32) 


# 随机 截取 图 像 ， 减 小 需要 关注 的 物体 大 小 对 图 像 识别 算法 的 影响 。 
bbox begin, bbox _ size = tf.image.sample distorted bounding box( 
tf.shape (image), bounding boxes=bbox) 
distorted image = tf.slice(image, bbox begin, bbox size) 
# 将 随机 截取 的 图 像 调整 为 神经 网 络 输 入 层 的 大 小 。 大 小 调整 的 算法 是 随机 选择 的 。 
distorted image”= tf:image.resize jmages'\ 
distorted image, height, width, method=np.random.randint (4)) 
# 随机 左右 翻转 图 像 。 
distorted image = tf.image.random flip left right (distorted image) 
# 使 用 一 种 随机 的 顺序 调整 图 像 色彩 。 
distorted image = distort color(distorted image, np.random.randint (2)) 
return distorted image 


image raw data = tf.gfile.FastGFile("/path/to/picture", "“r") .read () 
with tf.Session() as sess: 
img data = tf.image.decode jpeg(image raw data) 
boxes = tf.constant ([[{[0.05, 0. 05, OO0 07d [03357 0 lm O00 Nla) 


# 运行 6 次 获得 6 种 不 同 的 图 像 ， 在 图 7-13 展示 了 这 些 图 像 的 效果 。 
for i in range (6): 
# 将 图 像 的 尺寸 调整 为 299x299。 
result:= preprocess for train(img data,: 299,; “299,” boxes) 
plt.imshow (result.eval ()) 
plt.show () 
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图 7-13 运行 6 次 图 像 预 处 理 得 出 的 6 张 不 同 的 图 像 


运行 上 面 这 段 程序 ， 可 以 得 到 类 似 图 7-13 中 所 示 的 图 像 。 这 样 就 可 以 通过 一 张 训练 图 
像 衍 生出 很 多 训练 样本 。 通 过 将 训练 图 像 进 行 预 处 理 ， 训 练 得 到 的 神经 网 络 模型 可 以 识别 
不 同 大 小 、 方 位 、 色 彩 等 方面 的 实体 。 


7.3 ”多 线程 输入 数据 人 处理 框 染 


在 7.2 节 中 介绍 了 使 用 TensorFlow 对 图 像 数 据 进 行 预 处 理 的 方法 。 虽 然 使 用 这 些 图 像 
数据 预 处 理 的 方法 可 以 减 小 无 关 因 素 对 图 像 识 别 模型 效果 的 影响 ， 但 这 些 复杂 的 预 处 理 过 
程 也 会 减 慢 整个 训练 过 程 ?。 为 了 避免 图 像 预 处 理 成 为 神经 网 络 模型 训练 效率 的 瓶颈 ， 
TensorFlow 提供 了 一 套 多 线程 处 理 输 入 数据 的 框架 ,在 本 节 中 将 详细 介绍 这 个 框架 。 图 7-14 
总 结 了 一 个 经 典 的 输入 数据 处 理 的 流程 ， 在 以 下 的 各 个 小 节 中 ， 将 依次 介绍 这 个 流程 的 不 
同 部 分 。 


@ 本 章 中 主要 以 图 像 识 别 应 用 为 背景 介绍 数据 预 处 理 流程 ， 但 读者 可 以 很 容易 将 这 个 框架 应 用 到 其 他 类 
型 的 数据 上 。 
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指定 原始 数据 的 文件 列表 


创建 文件 列表 队列 





从 文件 中 读 取 数据 


县 
数据 预 处 理 
县 


整理 成 Batch 作 为 神经 网 络 输入 





图 7-14 经 典 输入 数据 处 理 流程 图 


7.3.1 小 节 将 首先 介绍 TensorFlow 中 队列 的 概念 。 在 TensorFlow 中 ， 队 列 不 仅 是 一 种 
数据 结构 , 它 更 提供 了 多 线程 机 制 。 队列 也 是 TensorFlow 多 线程 输入 数据 处 理 框 架 的 基础 。 
然后 在 7.3.2 小 节 中 将 介绍 如 何在 TensorFlow 中 实现 图 7-14 中 的 前 三 步 。TensorFlow 提供 
了 tftrain.string_input producer 函数 来 有 效 管理 原始 输入 文件 列表 。 在 7.3.2 小 市 中 将 重点 
介绍 如 何 使 用 这 个 函数 。 图 7-14 中 数据 预 处 理 的 部 分 已 经 在 7.2 节 中 有 过 详细 介绍 ， 本 节 
不 再 重复 。 接 着 在 7.3.3 小 节 中 将 介绍 图 7-14 中 的 最 后 一 个 流程 。 这 个 流程 将 处 理 好 的 单 
个 训练 数据 整理 成 训练 数据 batch,， 这 些 batch 就 可 以 作为 神经 网 络 的 输入 。7.3.3 小 节 将 介 
绍 tftrain.shuffle batch join 和 tftrain.shuffle batch 函数 ， 并 比较 不 同 函数 的 多 线程 并 行 方 
式 。 最 后 在 7.3.4 小 节 中 将 给 出 一 个 完整 的 TensorFlow 程序 来 展示 整个 输入 数据 处 理 框架 。 


7.3.1 队列 与 多 线程 


在 TensorFlow 中 ， 队 列 和 变量 类 似 ， 都 是 计算 图 上 有 状态 的 节点 。 其 他 的 计算 节点 可 
以 修改 它们 的 状态 。 对 于 变量 ， 可 以 通过 赋值 操作 修改 变量 的 取 值 ?。 对 于 队列 ， 修 改 队列 
状态 的 操作 主要 有 Enqueue、EnqueueMany 和 Dequeue。 以 下 程序 展示 了 如 何 使 用 这 些 函 数 
来 操作 一 个 队列 。 

import tensorflow as tf 

# 创建 一 个 先进 先 出 队列 ， 指 定 队 列 中 最 多 可 以 保存 两 个 元 素 ， 并 指定 类 型 为 整数 。 

gq = tf.FIFOQueue (2, "int32") 


Q9 第 4 章 中 详细 介绍 了 TensorFlow 中 的 变量 。 
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# 使 用 enqueue many 函数 来 初始 化 队列 中 的 元 素 。 和 变量 初始 化 类 似 ， 在 使 用 队列 之 前 
# 需要 明确 的 调用 这 个 初始 化 过 程 。 

init = q.engueue many (([07 10],)) 

# 使 用 Dequeue 函数 将 队列 中 的 第 一 个 元 素 出 队列 。 这 个 元 素 的 值 将 被 存在 变量 x 中 。 

x = gq.degqueue() 

# 将 得 到 的 值 加 1。 

Vs 

# 将 加 1 后 的 值 在 重新 加 入 队列 。 


q inc = q.enqueue([y]) 


with tf.Session() as sess: 
# 运行 初始 化 队列 的 操作 。 
Tn 
EGR 二 er 人 ss 
ed dd 
= SQSS .LUnN( [GELNG) 


# 打印 出 队 元 素 的 取 值 ， 


全 TEA 


ES 


队列 开始 有 [0, 10] 两 个 元 素 ， 第 一 个 出 队 的 为 0， 加 工 之 后 再 次 入 队 得 到 的 队列 为 [10,1];， 第 二 
次 出 队 的 为 10， 加 1 之 后 入 队 的 为 11， 得 到 的 队列 为 [1,11]; 以 此 类 推 ， 最 后 得 到 的 输出 为 : 
a 

10 

1 

Tt 

2 


TensorFlow 中 提供 了 FIFOQueue 和 RandomShuffleQueue 两 种 队列 。 在 上 面 的 程序 中 ， 
已 经 展示 了 如 何 使 用 FIFOQueue， 它 的 实现 的 是 一 个 先进 先 出 队列 。RandomShuffleQueue 
会 将 队列 中 的 元 素 打 乱 , 每 次 出 队列 操作 得 到 的 是 从 当前 队列 所 有 元 素 中 随机 选择 的 一 个 。 
在 训练 神经 网 络 时 希望 每 次 使 用 的 训练 数据 尽量 随机 ，RandomShuffleQueue 就 提供 了 这 样 
的 功能 

在 TensorFlow 中 ， 队 列 不 仅仅 是 一 种 数据 结构 ， 还 是 异步 计算 张 量 取 值 的 一 个 重要 机 
制 。 比 如 多 个 线程 可 以 同时 癌 一 个 队列 中 写 元 素 ， 或 者 同时 读 取 一 个 队列 中 的 元 素 。 在 后 
面 的 小 节 中 将 具体 介绍 TensorFlow 是 如 何 利用 队列 来 实现 多 线程 输入 数据 处 理 的 。 在 本 小 
节 之 后 的 内 容 中 将 先 介绍 TensorFlow 提供 的 辅助 函数 来 更 好 地 协同 不 同 的 线程 。 

TensorFlow 提供 了 tCoordinator 和 tf.QueueRunner 两 个 类 来 完成 多 线程 协同 的 功能 
tf.Coordinator 主要 用 于 协同 多 个 线程 一 起 停止 ， 并 提供 了 should_stop、request_stop 和 join 
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三 个 沙 数 。 在 启动 线程 之 前 ， 需 要 先 声 明 一 个 给 Coordinator 类 ， 并 将 这 个 类 传 入 每 一 个 创 
建 的 线程 中 。 启 动 的 线程 需要 一 直 查 询 引 Coordinator 类 中 提供 的 should stop 图 数 ， 当 这 个 
函数 的 返回 值 为 True 时 ， 则 当前 线程 也 需要 退出 。 每 一 个 局 动 的 线程 都 可 以 通过 调用 
request stop 函数 来 通知 其 他 线程 退出 。 当 某 一 个 线程 调用 request stop 函数 之 后 ， 
should stop 函数 的 返回 值 将 被 设置 为 Tue， 这样 其 他 的 线程 就 可 以 同时 终止 了 。 以 下 程序 
展示 了 如 何 使 用 tf.Coordinator。 


import tensorflow as tf 
import numpy as np 
import threading 


import time 


# 线程 中 运行 的 程序 ， 这 个 程序 每 隔 1 秒 判断 是 否 需要 停止 并 打印 目 己 的 ID。 
def MyLoop (coord, worker id): 
# 使 用 tf .Coordinator 类 提供 的 协同 工具 判断 当前 线程 是 否 需 要 停止。 
while not coord.should _ stop () : 
# 随机 停止 所 有 的 线程 。 
np erandom rard (ee Ol 
print "Stoping from id: %d\n" % worker id, 
# 调用 coord.request stop() 函数 来 通知 其 他 线程 停止 。 
coord.request stop() 
ese: 
# 打印 当前 线程 的 Igd。 
print "Working on id: %d\n" % worker id, 


# 暂停 1 秘 


time.sleep(1) 


# 声明 一 个 tf.train.Coordinator 类 来 协同 多 个 线程 。 
coord = tf.train.Coordinator () 
# 井 声明 创建 5 个 线程 。 
threads = [ 
threading.Thread (target=MyLoop, args=(coord, i, )) for i in xrange(5)] 
# 启动 所 有 的 线程 。 
Eorstemnathreads.m tstart(y) 
# 等 待 所 有 线程 退出 。 


Coord.Jjoin (thrzeads ) 
运行 上 面 的 程序 ， 可 以 得 到 类 似 下 面 的 结 采 : 


WOrkKkinNg on :Lrds:..0 
WOEKTENGEONSLA: 1 
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Working on id: 2 
Working on id: 4 
Working on id: 3 
Working on id: 0 
Stoping from id: 4 
WOLPKILNGROr ol 


当 所 有 线程 局 动 之 后 ， 每 个 线程 会 打印 各 自 的 ID， 于 是 前 面 4 行 打印 出 了 它们 的 ID。 
然后 在 暂停 1 秒 之 后 ， 所 有 线程 又 开始 第 二 壳 打 印 ID 。 在 这 个 时 候 有 一 个 线程 退出 的 条 件 
达到 , 于 是 调用 了 coord.request stop 函数 来 停止 所 有 其 他 的 线程 。 然 而 在 打印 Stoping from 
id: 4 之 后 ， 可 以 看 到 有 线程 仍然 在 输出 。 这 是 因为 这 些 线程 已 经 执行 完 coord.should stop 
的 判断 ， 于 是 仍然 会 继续 输出 自己 的 ID。 但 在 下 一 轮 判断 是 否 需 要 停止 时 将 退出 线程 。 于 
是 在 打印 一 次 ID 之 后 就 不 会 再 有 输出 了 。 

tf.QueueRunner 主要 用 于 局 动 多 个 线程 来 操作 同一 个 队列 ， 局 动 的 这 些 线程 可 以 通过 
上 面 介 绍 的 给 Coordinator 类 来 统一 管理 。 以 下 代码 展示 了 如 何 使 用 给 QueueRunner 和 
tf.Coordinator 来 管理 多 线程 队列 操作 。 


import tensorflow as tf 


# 声明 一 个 先进 先 出 的 队列 ， 队 列 中 最 多 100 个 元 素 ， 类 型 为 实数 。 
queue = tf.FIFOQOueue (100, "float") 
# 定义 队列 的 入 队 操作 。 


enguieuesopm=soUueuesvengqueue( ltt random normad (lal 


# 使 用 tf.train.QueueRunner 来 创建 多 个 线程 运行 队列 的 入 队 操 作 。 
# tf.train.QueueRunner 的 第 一 个 参数 给 出 了 被 操作 的 队列 ， [engqueuesoplsseS 
# 表示 了 需要 启动 5 个 线程 ， 每 个 线程 中 运行 的 是 enqueue op 操作 。 


gre Sttetrarn UeueRUunner(tqueuerne rengqueuenopl es,) 


# 将 定义 过 的 QueueRunner 加 入 TensorFlow 计算 图 上 指定 的 集合 。 

# tf.train.add queue runner 函数 没有 指定 集合 ， 

# 则 加 入 默认 集合 tf .GraphKevs.OUEUE RUNNERSS。 下 面 的 函数 就 是 将 刚刚 定义 的 
# qr 加 入 默认 的 tf.GraphKeys .QUEUE RUNNERS 集合 。 
tfetrarnsadd queues runner (gr) 

# 定义 出 队 操 作 。 


outstensor =agueue.dequeue() 


with tf.Session() as sess: 


@ 第 3 章 介 绍 了 TensorFlow 计算 图 中 集合 的 概念 。 
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# 使 用 tf.train.Coordinator 来 协同 启动 的 线程 。 

coord = tfE.trailn.Coordinator () 

# 使 用 tf.train.QueueRunner 时 ， 需 要 明确 调用 tf.train.start queue runners 

# 来 启动 所 有 线程 。 否 则 因为 没有 线程 运行 入 队 操作 ， 当 调用 出 队 操 作 时 ， 程 序 会 一 直 等 待 入 
# 队 操作 被 运行 。tf.train.start queue runners 函数 会 默认 局 动 

# tf.GraphKeys .OUEUE RUNNERS 集合 中 所 有 的 QueueRunner。 因 为 这 个 函数 只 文 持 局 
# 动 指定 集合 中 的 QueueRnner， 所 以 一 般 来 说 tf.train.add queue runner 函数 和 

# tf.train.start queue runners 函数 会 指定 同一 个 集合 。 

threads = tf.train.start queue LTuUnners (Sess=SeSsr Coord=coord) 


# 获取 队列 中 的 取 值 。 


for ‘in range(3): Print sess.run(out tensor).[0] 


# 使 用 tf.train.Coordinator 来 停止 所 有 的 线程 。 
GOOrd"requestestop() 
coord.join (threads) 


上 面 的 程序 将 启动 五 个 线程 来 执行 队列 入 队 的 操作 ， 其 中 每 一 个 线程 都 是 将 随机 数 写 入 队列 。 于 是 
在 每 次 运行 出 队 操 作 时 ， 可 以 得 到 一 个 随机 数 。 运 行 这 段 程序 可 以 得 到 类 似 下 面 的 结果 : 
-0.315963 

-1.06425 

0.347479 


| 


7.3.2 ”输入 文件 队列 


本 小 节 将 介绍 如 何 使 用 TensorFlow 中 的 队列 管理 输入 文件 列表 。 在 这 一 小 节 中 ， 假设 
所 有 的 输入 数据 都 已 经 整理 成 了 TFRecord 格式 ”。 虽 然 一 个 TFRecord 文件 中 可 以 存储 多 个 
训练 样 例 , 但 是 当 训 练 数据 量 较 大 时 , 可 以 将 数据 分 成 多 个 TFRecord 文件 来 提高 处 理 效 率 。 
TensorFlow 提供 了 tftrain.match filenames_once 函数 来 获取 符合 一 个 正则 表达 式 的 所 有 文 
件 ， 得 到 的 文件 列表 可 以 通过 tftrain.string input producer 函数 进行 有 效 的 管理 。 
tftrain.string_ input producer 函数 会 使 用 初始 化 时 提供 的 文件 列表 创建 一 个 输入 队列 ， 
输入 队列 中 原始 的 元 素 为 文件 列表 中 的 所 有 文件 。 如 7.1 节 中 的 样 例 代码 所 示 ， 创 建 好 的 
合 入 队列 可 以 作为 文件 读 取 函数 的 参数 。 每 次 调用 文件 读 取 函 数 时 ， 该 函数 会 先 判 断 当 前 
是 否 已 有 打开 的 文件 可 读 ， 如 果 没 有 或 者 打开 的 文件 已 经 读 完 ， 这 个 函数 会 从 输入 队列 中 


GD TFRecord 格式 在 7.1 节 中 有 介绍 。 
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出 队 一 个 文件 并 从 这 个 文件 中 读 取 数据 。 

通过 设置 shuffle 参数 , tf.train.string input producer 函数 支持 随机 打 乱 文件 列表 中 文件 
出 队 的 顺序 。 当 shuffle 参数 为 True 时 ,文件 在 加 入 队列 之 前 会 被 打 乱 顺序 ， 所 以 出 队 的 顺 
序 也 是 随机 的 。 随 机 打 乱 文件 顺序 以 及 加 入 输入 队列 的 过 程 会 跑 在 一 个 单独 的 线程 上 ， 这 
样 不 会 影响 获取 文件 的 速度 。 寻 train.string input producer 生成 的 输入 队列 可 以 同时 被 多 个 
文件 读 取 线 程 操作 ， 而 且 输 入 队列 会 将 队列 中 的 文件 均匀 地 分 给 不 同 的 线程 ， 不 出 现 有 些 
文件 被 处 理 过 多 次 而 有 些 文件 还 没有 被 处 理 过 的 情况 。 

当 一 个 输入 队列 中 的 所 有 文件 都 被 处 理 完 后 ， 它 会 将 初始 化 时 提供 的 文件 列表 中 的 文 
件 全 部 重新 加 入 队列 。tf.train.string_input_producer 函数 可 以 设置 num epochs 参数 来 限制 加 
载 初 始 文件 列表 的 最 大 轮 数 。 当 所 有 文件 都 已 经 被 使 用 了 设 定 的 轮 数 后 ， 如 果 继 续 尝 试 读 
取 新 的 文件 ， 输 入 队列 会 报 OutOfRange 的 错误 。 在 测试 神经 网 络 模型 时 ， 因 为 所 有 测试 数 
据 只 需要 使 用 一 次 ， 所 以 可 以 将 num epochs 参数 设置 为 1。 这 样 在 计算 完 一 轮 之 后 程序 将 
自动 停止 。 在 展示 tf.train.match_filenames_once 和 tftrain.string input producer 函数 的 使 用 
方法 之 前 ， 下 面 先 给 出 一 个 简单 的 程序 来 生成 样 例 数 据 。 


import tensorflow as tf 


# 创建 TFRecord 文件 的 帮助 函数 。 
def int64 feature (value): 
return tf.train.Feature (int64 list=tf.train.Int64List (value=[value])) 


# 模拟 海量 数据 情况 下 将 数据 写 入 不 同 的 文件 。num shards 定义 了 总 共 写 入 多 少 个 文件 ， 
# instances_per_shard 定义 了 每 个 文件 中 有 多 少 个 数据 。 
num shards = 2 
instances per shard = 2 
for i In range (num shards): 
# 将 数据 分 为 多 个 文件 时 ， 可 以 将 不 同文 件 以 类 似 0000n-of-0000m 的 后 缀 区 分 。 其 中 m 表 
.和 间 示 了 数据 总 共 被 存在 了 多 少 个 文件 中 ，n 表示 当前 文件 的 编号 。 式 样 的 方式 既 方 便 了 通过 正 
# 则 表达 式 获取 文件 列表 ， 又 在 文件 名 中 加 入 了 更 多 的 信息 。 
filename = ('/path/to/data.tfrecords-%.5d- Of-%$.5d' % (i, num shards)) 
writer = tf.python io.TFRecordWriter (filename) 
# 将 数据 封装 成 Example 结构 并 写 入 TFRecord 文件 。 
for J] in range(linstances per shard): 
# Example 结构 仅 包 含 当前 样 例 属于 第 几 个 文件 以 及 是 当前 文件 的 第 几 个 样本 。 
example = tf.train.Example (features=tf.train.Features (feature={ 
Sl ntoA4Featuren(n 
a i 1rd ECature() 
writer.write (example.SerializeToString()) 
writer.close!() 
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程序 运行 之 后 ,在 指定 的 目录 下 将 生成 两 个 文件 : /path/to/data.tfrecords-00000-of-00002 
和 /path/to/data.tfrecords-00001-of-00002。 每 一 个 文件 中 存储 了 两 个 样 例 。 在 生成 了 样 例 数 
据 之 后 ， 以 下 代码 展示 了 ttrain.match_ filenames_once 函数 和 tf.train.string input producer 
图 数 的 使 用 方法 。 


import tensorflow as tf 


# 使 用 tf.train.match filenames once 函数 获取 文件 列表 。 


files = tf.train.match filenames once("/path/to/data.tfrecords-*") 


# 通过 tf.train.string input producer 函数 创建 输入 队列 ， 输 入 队列 中 的 文件 列表 为 
# tf.train.match filenames once 函数 获取 的 文件 列表 。 这 里 将 shuffle 参数 设 为 False 
# 来 避免 随机 打 乱 读 文件 的 顺序 。 但 一 般 在 解决 真实 问题 时 ， 会 将 shuffle 参数 设置 为 True。 


filename queue = tf.train.string input producer (files, shuffle=False) 


# 如 7.1 节 中 所 示 读 取 并 解析 一 个 样本 。 
reader = tf.TFRecordReader () 
“Serlalized example = reader:read'(filename queue,) 
Featuress = tt arseninglenexamnpgEel( 
serialized example, 
features={ 
117: tf.FixedLenFeature([], tf.int64), 
tf ixedLenreature(l]l ttntoa), 


}) 


with tf.Session() as sess: 
# 虽然 在 本 段 程序 中 没有 声明 任何 变量 ,但 使 用 tf.train.match filenames once 函数 时 需 
# 要 初始 化 一 些 变 量 。 


toraLrszerali vartables ru 


打印 文件 列表 将 得 到 下 面 的 结果 : 3 
['/path/to/data.tfrecords-00000-of-00002' 
'/path/to/data.tfrecords-00001-of-00002'] 


1 


print sess.run (files) 


# 声明 tf.train.Coordinator 类 来 协同 不 同 线程 ， 并 启动 线程 。 
coord = tf.train.Coordinator () 
threads = tf.train.start queue runners(sess=sess, coord=coord) 


# 多 次 执行 获取 数据 的 操作 。 
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for i in range (6): 

print sess.run([features['i'], features['j'"]]) 
coord.request stop:() 
coord.Jjoin (threads) 


上 面 的 打印 将 输出 : 


[0，0] 
[0] 
[0] 
[i] 
[0, 0] 
E01 


在 不 打 乱 文件 列表 的 情况 下 ， 会 依次 读 出 样 例 数据 中 的 每 一 个 样 例 。 而 且 当 所 有 样 例 
都 被 读 完 之 后 ， 程 序 会 目 动 从 头 开 始 。 如 果 限 制 num_epochs 为 1， 那 么 程序 将 会 报错 : 


tensorflow.python.framework.errors.OutOfRangeError: FIFOQueue 


0-input‘producer’' is closed and has insufficient elements (requested 1, 
current size 0) 


[FlNode: ReaderRead = ReaderRead[lY class=[ 10c:Q@TERecordReader®, LO 
@input producer"], 


_device="/job:localhost/replica:0/task:0/cpu:0"] (TFRecordReader, 
input producer)|]] ; 


7.3.3 ”组 合 训 练 数据 (batching ) 


在 7.3.2 小 市 中 已 经 介绍 了 如 何 从 文件 列表 中 读 取 单个 样 例 ， 将 这 些 单个 样 例 通过 7.2 
廊 中 介绍 的 预 处 理 方法 进行 处 理 ， 就 可 以 得 到 提供 给 神经 网 络 输入 层 的 训练 数据 了 。 在 第 
4 章 介 绍 过 , 将 多 个 输入 样 例 组 织 成 一 个 batch 可 以 提高 模型 训练 的 效率 。 所 以 在 得 到 单个 
样 例 的 预 处 理 结果 之 后 ， 还 需要 将 它们 组 织 成 batch， 然 后 再 提供 给 神经 网 络 的 输入 层 。 
TensorFlow 提供 了 tftrain.batch 和 .train.shuffle batch 函数 来 将 单个 的 样 例 组 织 成 batch 的 
形式 和 输出。 这 两 个 函数 都 会 生成 一 个 队列 ， 队 列 的 入 队 操 作 是 生成 单个 样 例 的 方法 ， 而 每 
次 出 队 得 到 的 是 一 个 batch 的 样 例 。 它 们 唯一 的 区 别 在 于 是 否 会 将 数据 顺序 打 乱 。 以 下 代 
码 展示 了 这 两 个 国 数 的 使 用 方法 。 


import tensorflow as tf 


# 使 用 7.3.2 小 节 中 的 方法 读 取 并 解析 得 到 样 例 。 这 里 假设 Example 结构 中 i 表示 一 个 样 例 的 
# 特征 向 量 ， 比 如 一 张 图 像 的 像素 和 矩阵。 而 j 表示 该 样 例 对 应 的 标签 。 


192 4 


ww ai bbt.com DODODODODDOD 





第 7 章 ”图像 数 据 处 理 


example, label = features['i'], features['j'] 


# 一 个 batch 中 样 例 的 个 数 。 

batch® size>=%3 

# 组 合 样 例 的 队列 中 最 多 可 以 存储 的 样 例 个 数 。 这 个 队列 如 果 太 大 ， 那 么 需要 占用 很 多 内 存 资源 ， 
# 如 果 太 小 ， 那 么 出 队 操 作 可 能 会 因为 没有 数据 而 被 阻碍 (block)， 从 而 导致 训练 效率 降低 。 一 般 
# 来 说 这 个 队列 的 大 小 会 和 每 一 个 batch 的 大 小 相关 ， 下 面 一 行 代码 给 出 了 设置 队列 大 小 的 一 种 
# 方式 。 

capacity = 1000 + 3 * batch size 


# 使 用 tf.train.batch 函数 来 组 合 样 例 。[example，1label] 参 数 给 出 了 需要 组 合 的 元 素 ， 
# 一 般 example 和 label 分别 代 表 训 练 样本 和 这 个 样本 对 应 的 正确 标签 。 patch size 参数 给 出 
# 了 每 个 batch 中 样 例 的 个 数 。capacity 给 出 了 队列 的 最 大 容量 。 当 队列 长 度 等 于 容量 时 ， 
# TensorFlow 将 暂停 入 队 操 作 ， 而 只 是 等 竺 元素 出 队 。 妆 元 素 个 数 小 于 容量 时 ，TensorFlow 
# 将 目 动 重新 局 动 入 队 操 作 。 
example batch, label batch = 七 ftralineDatch( 

[example, label], batch size=batch size capacity=capacity) 


with tf.Session().as sess: 
tonitiallzerall VarLadLes (er) 
coord = tf.train.Coordinator () 
threads = tf.train.start queue runners:(sess=sessr COoord=scoord) 


# 获取 并 打印 组 合 之 后 的 样 例 。 在 真实 问题 中 ， 这 个 输出 一 般 会 作为 神经 网 络 的 输入 。 
FOrSTei nsrange(2 
cur example batch, cur label batch = sess.runl( 
[example batch, label batch]) 
print cur example batch, cur label batch 


coord.request stop() 
coord.join (threads) 


运行 上 面 的 程序 可 以 得 到 下 面 的 输出 : 

EQOASOPIN Es 

EL 起 人 NO 二 二 0 

从 这 个 输出 可 以 看 到 tf.train.batch 函数 可 以 将 单个 的 数据 组 织 成 3 个 一 组 的 batch。 
在 example，1lLabel 中 读 到 的 数据 依次 为 : 

example: 0, lable:0 

example: 0, lable:1 

example: 1, lable:0 


example: 1, lable:l1 
这 是 因为 tf .train.batch 函数 不 会 随机 打 乱 顺序 ， 所 以 组 合 之 后 得 到 的 数据 组 合成 了 上 面 给 出 
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的 输出 。 


下 面 一 段 代 码 展示 了 给 train.shuffle batch 函数 的 使 用 方法 。 
# 和 tf.train.batch 的 样 例 代码 一 样 产生 example 和 label。 


example, label = features['i'], features['j'] 


# 使 用 tf.train.shuffle batch 函数 来 组 合 样 例 。tf.train.shuffle batch 函数 
# 的 参数 大 部 分 都 和 tf.train.batch 函数 相似 ,但 是 min after dequeue 参数 是 
# tf.train.shuffle batch 函数 特有 的 min after dequeue 参数 限制 了 出 队 时 队列 中 元 
# 素 的 最 少 个 数 。 当 队列 中 元 素 太 少时 ， 随 机 打 乱 样 例 顺 序 的 作用 就 不 大 了 。 所 以 
# tf.train.shuffle batch 函数 提供 了 限制 出 队 时 最 少 元 素 的 个 数 来 保证 随机 打 乱 顺序 的 
# 作用 。 当 出 队 函 数 被 调用 但 是 队列 中 元 素 不 够 时 ， 出 队 操 作 将 等 待 更 多 的 元 素 入 队 才 会 完 
# 如 果 min after dequeue 参数 被 设 定 ，capacity 也 应 该 相应 调整 来 满足 性 能 需求 。 
example sbatchy label batch = tf.train.shuffle batch (人 
[example, label], batch size=batch size, 
capacity=capacity, min after dequeue=30) 


# 和 tf.train.batch 的 样 例 代码 一 样 打印 example batch, label batch。 


运行 上 面 的 代码 可 以 得 到 下 面 的 输出 : 

[OT T0130 

[TEONO]SEOSOSE 

从 输出 中 可 以 看 到 ， 得 到 的 样 例 顺序 已 经 被 打 乱 了 。 


tf.train.batch 函数 和 tftrain.shuffle batch 函数 除了 可 以 将 单个 训练 数据 整理 成 输入 
batch， 也 提供 了 并 行 化 处 理 输入 数据 的 方法 。tftrain.batch 函数 和 攻 train.shuffle batch 函数 
并 行 化 的 方式 一 致 ， 所 以 在 本 小 节 中 仅 以 应 用 得 更 多 的 tf.train.shuffle_batch 函数 为 例 。 通 
过 设置 tftrain.shuffle_batch 函数 中 的 num_threads 参数 , 可 以 指定 多 个 线程 同时 执行 入 队 操 
作 。tftrain.shuffle batch 函数 的 入 队 操 作 就 是 数据 读 取 以 及 预 处 理 的 过 程 。 当 num threads 
参数 大 于 1 时 ， 多 个 线程 会 同时 读 取 一 个 文件 中 的 不 同样 例 并 进行 预 处 理 。 如 果 需 要 多 个 
线程 处 理 不 同文 件 中 的 样 例 时 ， 可 以 使 用 给 train.shuffle batch join 函数 >。 此 函数 会 从 输入 
文件 队列 中 获取 不 同 的 文件 分 配给 不 同 的 线程 。 一 般 来 说 , 输入 文件 队列 是 通过 7.3.2 中 介 
. 绍 的 给 train.string_input_producer 函数 生成 的 。 这 个 函数 会 平均 分 配 文件 以 保证 不 同文 件 中 
的 数据 会 被 尽量 平均 地 使 用 。 


@ 如 果 不 需要 随机 打 乱 输入 数据 顺序 ， 可 以 使 用 给 train.batch_join 函数 完成 类 似 功能 。 
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tf.train.shuffle batch 函数 和 tf.train.shuffle batch join 函数 都 可 以 完成 多 线程 并 行 的 方 
式 来 进行 数据 预 处 理 ， 但 它们 各 有 优 劣 。 对 于 tf.train.shuffle batch 函数 ， 不 同 线程 会 读 取 
同一 个 文件 。 如 果 一 个 文件 中 的 样 例 比 较 相 似 (比如 都 属于 同一 个 类 别 )， 那 么 神经 网 络 的 
训练 效果 有 可 能 会 受到 影响 。 所 以 在 使 用 tf.train.shuffle_ batch 函数 时 ， 需 要 尽量 将 同一 个 
TFRecord 文件 中 的 样 例 随 机 打 乱 。 而 使 用 给 train.shuffle batch join 函数 时 ， 不 同 线程 会 读 
取 不 同文 件 。 如 果 读 取 数 据 的 线程 数 比 总 文件 数 还 大 ， 那 么 多 个 线程 可 能 会 读 取 同 一 个 文 
件 中 相近 部 分 的 数据 。 而 且 多 个 线程 读 取 多 个 文件 可 能 导致 过 多 的 人 硬盘 寻 址 ， 从 而 使 得 读 
取 效 率 降低 。 不同 的 并 行 化 方式 各 有 所 长 ， 具体 采 用 哪 一 种 方法 需要 根据 具体 情况 来 确定 。 


7.3.4 输入 数据 处 理 框 架 


在 前 面 的 小 节 中 己 经 介绍 了 图 7-14 所 展示 的 流程 图 中 的 所 有 步骤 。 在 这 一 小 节 将 把 这 
些 步 骤 串 成 一 个 完成 的 TensorFlow 来 处 理 输入 数据 。 以 下 代码 给 出 了 这 个 完成 的 程序 。 


import tensorflow as tf 


# 创建 文件 列表 ， 并 通过 文件 列表 创建 输入 文件 队列 。 在 调用 输入 数据 处 理 流程 前 ， 需 要 

# 统一 所 有 原始 数据 的 格式 并 将 它们 存储 到 TFRecord 文件 中 。 下 面 给 出 的 文件 列表 应 该 包含 所 
# 有 提供 训练 数据 的 TFRecord 文件 。 

files = tf.train.match filenames once("/path/to/file pattern-*") 
filename queue = tf.train.string input producer(files, shuffle=False) 


# 使 用 类 似 7 .1 节 中 介绍 的 方法 解析 TFRecord 文件 里 的 数据 。 这 里 假设 image 中 存储 的 是 图 像 
# 的 原始 数据 ，1abel 为 该 样 例 所 对 应 的 标签 height、width 和 channels 给 出 了 图 片 的 维度 。 
reader = tf.TFRecordReader () 
+: Serialized example = reader.read (filename queue) 
features® = tf.parse single example( 
serialized example, 
features={ 
'ijmage': tf.FixedLenFeature ([], tf.string), 
'label': tf.FixedLenFeature([], tf.int64), 
'height': tf.FixedLenFeature([], tf.int64), 
'width': tf.FixedLenFeature{[], tf.int64), 
I'channels': tf.FixedLenFeature([], tf.int64), 
入 大 
image, label = features['image'], features['label'] 
height, width = features['height'], features['width'] 
channels = features['channels'] 
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# 从 原始 图 像 数据 解析 出 像素 矩阵 ， 并 根据 图 像 让 寸 还 原 图 像 。 
decoded image = tf.decode raw(image, tf.uint8) 
decoded image.set shape({[height, width, channels]) 
# 定义 神经 网 络 输入 层 图 片 的 大 小 。 
Image--S1LZe-=- 299 
# preprocess for train 为 7.2.2 小 节 中 介绍 的 图 像 预 处 理 程序 。 
distorted image = preprocess for tradlni 人 

decoded image, image size, image size, None) 


# 将 处 理 后 的 图 像 和 标签 数据 通过 tf.train.shuffle batch 整理 成 神经 网 络 训 练 时 

# 需要 的 batch。 

mineafter -dequeue®ss= E0000 

batch size’:==100 

capacity==:min after dequeue t+™35% batchssize 

imagesbatchr Lapelybatch =etfte traLnsshuftlesbatcnl( 
[distorted image label], batch size=batch size, 
capacity=capacity, min after dequeue=min after dequeue) 


# 定义 神经 网 络 的 结构 以 及 优化 过 程 。ijmage batch 可 以 作为 输入 提供 给 神经 网 络 的 输入 层 。 

# label batch 则 提供 了 输入 batch 中 样 例 的 正确 答案 。 

logit = inference (Image batch) 

loss = calc loss(logit, label batch) 

Eraln stepss tf.train.GradientDescentOptimizer (learning rate)\ 
.minimize (loss) 


# 声明 会 话 并 运行 神经 网 络 的 优化 过 程 。 

with tf.Session() as sess: 
# 神经 网 络 训 练 准备 工作 。 这 些 工作 包括 变量 初始 化 、 线 程 局 动 。 
tfsinitlialize all variabiles() .runt) 
COOrd = tf.train.Coordinator '() 


threads = tf.train.start queue runners (sess=sess, coord=coord) 


# 神经 网 络 训练 过 程 。 
for i in range (TRAINING ROUDNS): 
sess.run(train step) 


# 停止 所 有 线程 。 
COords redquestesstop() 
coord.join (threads) 
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图 7-15 展示 了 以 上 代码 中 输入 数据 处 理 的 整个 流程 。 从 图 7-15 中 可 以 看 出 ， 输 入 数 
据 处 理 的 第 一 步 为 获取 存储 训练 数据 的 文件 列表 。 在 图 7-15 中 ， 这 个 文件 列表 为 {A,B,C}。 
通过 tf.train.string_input_producer 函数 ， 可 以 选择 性 地 将 文件 列表 中 文件 的 顺序 打 乱 ， 并 加 
入 输入 队列 。 因 为 是 否 打 乱 文件 的 顺序 是 可 选 的 ， 所 以 在 图 中 通过 虚线 表示 。 
tf.train.string_input_producer 函数 会 生成 并 维护 一 个 输入 文件 队列 ， 不 同 线程 中 的 文件 读 取 
蚊 数 可 以 共享 这 个 输入 文件 队列 。 在 读 取样 例 数据 之 后 ， 需 要 将 图 像 进行 预 处 理 。 图 像 预 
处 理 的 过 程 也 会 通过 ttrain.shuffle batch 提供 的 机 制 并 行 地 跑 在 多 个 线程 中 。 输 入 数据 处 
理 流 程 的 最 后 通过 萎 train.shuffle batch 函数 将 处 理 好 的 单个 输入 样 例 整理 成 batch 提供 给 神 
经 网 络 的 输入 层 。 通 过 这 种 方式 ， 可 以 有 效 地 提高 数据 预 处 理 的 效率 ， 避 免 数 据 预 处 理 成 
为 神经 网 络 模型 训练 过 程 中 的 性 能 瓶颈 。 


输入 文件 列表 


9 |_.f 随机/ 
| 才 计 


效 振子 > batch1 
Readert | 一 : 二 


. batch2 


Reader? | 一 





图 7-15 输入 数据 处 理 流程 示意 图 
= 
小 绽 


本 章 通 过 图 像 数 据 预 处 理 的 流程 ,介绍 了 TensorFlow 使 用 多 线程 处 理 输入 数据 的 框架 。 
虽然 本 章 以 图 像 数 据 处 理 为 例 ， 但 读者 可 以 很 容易 将 该 框架 移植 到 其 他 类 型 的 数据 预 处 理 
上 。 根据 输入 数据 处 理 的 步骤 ， 在 本 章 的 三 节 中 分 别 介 绍 了 TensorFlow 推荐 的 输入 数据 格 
式 、 图 像 预 处 理 算 法 和 输入 数据 处 理 的 框架 。 首 先 在 7.1 节 中 介绍 了 如 何 通过 TensorFlow 
提供 的 TFRecord 格式 来 统一 不 同 格式 的 输入 数据 。 这 一 节 给 出 了 样 例 程序 将 原始 的 输入 数 
据 转化 为 Example Protocol Buffer， 并 存储 到 TFRecord 文件 中 ， 也 给 出 了 具体 代码 从 
TFRecord 文件 中 读 取 数据 。 
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接着 7.2 节 介 绍 了 TensorFlow 中 主要 的 图 像 处 理 函 数 ， 并 给 出 了 一 个 完整 的 图 像 预 处 
理 过 程 。TensorFlow 提供 了 图 像 解码 、 图 像 大 小 调整 、 图 像 旋 转 、 图 像 色 彩 调 整 和 图 像 标 
注 框 处 理 等 方法 。 根 据 具 体 问 题 ， 可 以 采用 其 中 的 部 分 方法 来 弱化 与 此 问题 无 天 的 因素 。 
比如 对 于 数字 手写 体 识别 问题 ， 图 像 的 颜色 、 亮 度 等 与 识别 的 结果 无 关 ， 所 以 可 以 通过 7.2 
节 中 介绍 的 方法 来 弱化 这 些 因 素 对 最 终 分 析 结 果 的 影响 。 

最 后 7.3 节 介 绍 了 TensorFlow 提供 的 多 线程 数据 预 处 理 流程 .这 一 节 讲 解 了 TensorFlow 
通过 队列 实现 多 线程 的 机 制 ， 并 介绍 了 TensorFlow 提供 的 函数 来 进一步 支持 并 行 化 的 处 理 
输入 数据 。 在 这 一 节 中 还 给 出 了 一 个 完整 的 数据 预 处 理 流程 图 和 TensorFlow 程序 框架 。 
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第 6 章 中 讲解 了 卷 积 神经 网 络 的 网 络 结构 ， 并 介绍 了 如 何 使 用 卷 积 神经 网 络 解决 图 像 
识别 问题 。 本 章 中 将 介绍 另外 一 种 常用 的 神经 网 络 结构 循环 神经 网 络 (recurrent neural 
network，RNN) 以 及 循环 神经 网 络 中 的 一 个 重要 结构 一 一 长 短 时 记忆 网 络 (long short-term 
memory, LSTM)。 本 章 也 将 介绍 循环 神经 网 络 在 目 然 语言 处 理 (natural language processing， 
NLP) 问题 以 及 时 序 分 析 问 题 中 的 应 用 ， 并 给 出 具体 的 TensorFlow 程序 来 解决 一 些 经 典 的 
问题 。 

首先 在 8.1 节 将 介绍 循环 神经 网 络 的 基本 知识 并 通过 机 器 翻译 问题 说 明 循环 神经 网 络 
是 如 何 被 应 用 的 。 这 一 节 中 将 给 出 一 个 具体 的 样 例 来 说 明 一 个 最 简单 的 循环 神经 网 络 的 前 
回 传播 时 是 如 何 工作 的 。 然 后 在 8.2 节 中 将 介绍 循环 神经 网 络 中 最 重要 的 结构 一 一 长 短 时 
记忆 网 络 〈long short term memory LSTM) 的 网 络 结构 。 在 这 一 节 中 将 大 致 介绍 LSTM 结 
构 中 的 主要 元 素 , 并 给 出 具体 的 TensorFlow 程序 来 实现 一 个 使 用 了 LSTM 结构 的 循环 神经 
网 络 。 接 着 在 8.3 节 中 将 介绍 一 些 常用 的 循环 神经 网 络 的 变种 。 最 后 在 8.4 节 中 将 结合 
TensorFlow 对 这 些 网 络 结构 的 文 持 ， 通 过 两 个 经 典 的 循环 神经 网 络 模型 的 应 用 案例 ， 介 绍 
如 何 针 对 语言 模型 和 时 序 预 测 两 个 问题 ， 设 计 和 使 用 循环 神经 网 络 。 











8.1 循环 神经 网 络 简介 ” 

循环 神经 网 络 (recurrent neural network，RNN) 源 目 于 1982 年 由 Saratha Sathasivam 
提出 的 霍 普 菲尔德 网 络 ?。 霍 普 菲 尔 德 网 络 因 为 实现 困难 , 在 其 提出 时 并 且 没 有 被 合适 地 应 
用 。 该 网 络 结构 也 于 1986 年 后 被 全 连接 神经 网 络 以 及 一 些 传统 的 机 器 学 习 算 法 所 取代 。 然 


Q 本 节 内 容 部 分 参考 了 资料 http://colah.github.io/posts/2015-08-Understanding-LSTMs/。 
@ 参见 : Sathasivam S. Logic Learning in Hopfield Networks [J]. Modern Applied Science, 2009. 
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而 ， 传 统 的 机 器 学 习 算 法 非常 依赖 于 人 工 提取 的 特征 ,使 得 基于 传统 机 器 学 习 的 图 像 识 别 、 
语音 识别 以 及 目 然 语言 处 理 等 问题 存在 特征 提取 的 瓶颈 。 而 基于 全 连接 神经 网 络 的 方法 也 
存在 参数 太 多 、 无 法 利用 数据 中 时 间 序 列 信息 等 问题 。 随 看 更 加 有 效 的 循环 人 神经 网 络 结构 
被 不 断 提 出 ， 循 环 神经 网 络 挖 据 数 据 中 的 时 序 信息 以 及 语义 信息 的 深度 表达 能 力 被 充分 利 
用 ， 并 在 语音 识别 、 语 言 模型 、 机 器 翻译 以 及 时 序 分 析 等 方面 实现 了 突破 。 

循环 神经 网 络 的 主要 用 途 是 处 理 和 预测 序列 数据 。 在 之 前 介绍 的 全 连接 神经 网 络 或 疮 
只 神经 网 络 模 型 中 ， 网 络 结构 都 是 从 输入 层 到 隐 舍 层 再 到 输出 层 ， 层 与 层 之 间 是 全 连接 或 
部 分 连接 的 ， 但 每 层 之 间 的 节点 是 无 连接 的 。 考 虑 这 样 一 个 问题 ， 如 果 要 预测 句子 的 下 一 
个 单词 是 什么 ， 一般 需要 用 到 当前 单词 以 及 前 面 的 单词 ， 因 为 句子 中 前 后 单词 并 不 是 独立 
的 。 比 如 ， 当 前 单词 是 “很 ” 前 一 个 单词 是 “天 空 ”， 那 么 下 一 个 单词 很 大 概率 是 “ 监 ”。 
循环 神经 网 络 的 来 源 就 是 为 了 刻画 一 个 序列 当前 的 输出 与 之 前 信息 的 关系 。 从 网 络 结构 上 ， 
循环 神经 网 络 会 记忆 之 前 的 信息 ， 并 利用 之 前 的 信息 影响 后 面 结 氮 的 输出 。 也 束 是 次 ， 循 
环 神经 网 络 的 隐藏 层 之 间 的 结 点 是 有 连接 的 ， 隐 藏 层 的 输入 不 仅 包括 输入 层 的 输出 ， 还 包 
括 上 一 时 刻 隐 藏 层 的 输出 。 

图 8-1 展示 了 一 个 典型 的 循环 神经 网 络 。 对 于 循环 神经 网 络 ， 一 个 非常 重要 的 概念 融 
是 时 刻 。 循 环 神经 网 络 会 对 于 每 一 个 时 刻 的 输入 结合 当前 模型 的 状态 给 出 一 个 输出 。 从 
图 8-1 中 可 以 看 到 ， 循 环 神经 网 络 的 主体 结构 A 的 输入 除了 来 目 输入 层 总 ， 还 有 一 个 循环 
的 边 来 提供 当前 时 刻 的 状态 。 在 每 一 个 时 刻 ， 循 环 神经 网 络 的 模块 A 会 读 取 上 时刻 的 输入 
X%， 并 输出 一 个 值 h,。 同 时 A 的 状态 会 从 当前 步 传递 到 下 一 步 。 因 此 ， 循 环 神经 网 络 理论 
上 可 以 被 看 作 是 同一 神经 网 络 结构 被 无 限 复制 的 结果 。 但 出 于 优化 的 考虑 ， 目 前 循环 神经 
网 络 无 法 做 到 真正 的 无 限 循环 ， 所 以 ， 现 实 中 一 般 会 将 循环 体 展 开 ， 于 是 可 以 得 到 图 8-2 


所 展示 的 结构 。 


人 


图 8-1 循环 神经 网 络 经 典 结构 示意 图 ” 


Q@ 本 章 关于 循环 神经 网 络 的 介绍 图 片 部 分 来 自 资料 http://colah.github.io/posts/2015-08-Understanding- LSTMs/。 
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在 图 8-2 中 可 以 更 加 清楚 的 看 到 循环 神经 网 络 在 每 一 个 时 刻 会 有 一 个 输入 怠 ， 然 后 根 
据 循环 神经 网 络 当 前 的 状态 4 提供 一 个 输出 h。 而 循环 神经 网 络 当 前 的 状态 4 是 根据 上 一 
时 刻 的 状态 4 和 当前 的 输入 铸 共 同 决定 的 。 从 循环 神经 网 络 的 结构 特征 可 以 很 容易 得 出 
它 最 擅长 解决 的 问题 是 与 时 间 序 列 相关 的 。 循 环 神经 网 络 也 是 处 理 这 类 问题 时 最 目 然 的 神 
经 网 络 结构 。 对 于 一 个 序列 数据 ， 可 以 将 这 个 序列 上 不 同时 刻 的 数据 依次 传 入 循环 神经 网 
络 的 输入 层 ， 而 输出 可 以 是 对 序列 中 下 一 个 时 刻 的 预测 ， 也 可 以 是 对 当前 时 刻 信 息 的 处 理 
结果 (比如 语音 识别 结果 )。 循 环 神经 网 络 要 求 每 一 个 时 刻 都 有 一 个 输入 ,但 是 不 一 定 每 个 
时 刻 都 需要 有 输出 。 在 过 去 几 年 中 , 循环 神经 网 络 已 经 被 广泛 地 应 用 在 语音 识别 、 语 言 模型 、 
机 器 翻译 以 及 时 序 分 析 等 问题 上 ， 并 取得 了 巨大 的 成 功 。 


四 ® 





图 8-2 ”循环 神经 网 络 按时 间 展 开 后 的 结构 


以 机 器 翻译 为 例 来 介绍 循环 神经 网 络 是 如 何 解决 实际 问题 的 。 循 环 神经 网 络 中 每 一 个 
时 刻 的 输入 为 需要 翻译 的 句子 中 的 单词 。 如 图 8-3 所 示 ， 需 要 翻译 的 句子 为 ABCD， 那 么 
循环 神经 网 络 第 一 段 每 一 个 时 刻 的 输入 就 分 别 是 A、B、C 和 D， 然 后 用 “ ”作为 竺 翻译 
句子 的 结束 符 。 在 第 一 段 中 ， 循 环 神经 网 络 没 有 输出 。 从 结束 符 “_ ”开始 ， 循 环 神经 网 络 
进入 翻译 阶段 。 该 阶段 中 每 一 个 时 刻 的 输入 是 上 一 个 时 刻 的 输出 ， 而 最 终 得 到 的 输出 就 是 
句子 ABCD 翻译 的 结果 。 从 图 8-3 中 可 以 看 到 句子 ABCD 对 应 的 翻译 结果 就 是 XYZ, 而 Q 


是 代表 翻译 结束 的 结束 符 。 
DD © © © © © © 


图 8-3 ”循环 神经 网 络 实现 序列 预测 示意 图 





如 之 前 所 介绍 ， 循 环 神经 网 络 可 以 被 看 做 是 同一 神经 网 络 结构 在 时 间 序 列 上 被 复制 多 
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次 的 结果 ， 这 个 被 复制 多 次 的 结构 被 称 之 为 循环 体 。 如 何 设计 循环 体 的 网 络 结构 是 循环 神 
经 网 络 解决 实际 问题 的 关键 。 和 卷 积 神经 网 络 过 滤器 中 参数 是 共享 的 类 似 ， 在 循环 神经 网 
络 中 ， 循 环 体 网 络 结构 中 的 参数 在 不 同时 刻 也 是 共享 的 。 

图 8-4 展示 了 一 个 使 用 最 简单 的 循环 体 结构 的 循环 神经 网 络 ， 在 这 个 循环 体 中 只 使 用 
了 一 个 类 似 全 连接 层 的 神经 网 络 结构 。 下 面 将 通过 图 8-4 中 所 展示 的 神经 网 络 来 介绍 循环 
神经 网 络 前 向 传播 的 完整 流程 。 循 环 神经 网 络 中 的 状态 是 通过 一 个 向 量 来 表示 的 ， 这 个 向 
量 的 维度 也 称 为 循环 神经 网 络 隐藏 层 的 大 小 ,假设 其 为 &。 从 图 8-4 中 可 以 看 出 ， 循 环 体 中 
的 神经 网 络 的 输入 有 两 部 分 ,一 部 分 为 上 一 时 刻 的 状态 ， 另 一 部 分 为 当前 时 刻 的 输入 样本 。 
对 于 时 间 序 列 数 据 来 说 (比如 不 同时 刻 商 品 的 销量 ), 每 一 时 刻 的 输入 样 例 可 以 是 当前 时 刻 
的 数值 (比如 销量 值 ); 对 于 语言 模型 来 说 , 输入 样 例 可 以 是 当前 单词 对 应 的 单词 向 量 (word 


embedding) “2 。 





图 8-4 ”使 用 单 层 全 连接 神经 网 络 作为 循环 体 的 循环 神经 网 络 结构 图 ” 


假设 输入 向 量 的 维度 为 x, 那么 图 8-4 中 循环 体 的 全 连接 层 神 经 网 络 的 输入 大 小 为 ht+x。 
也 就 是 将 上 一 时 刻 的 状态 与 当前 时 刻 的 输入 拼接 成 一 个 大 的 向 量 作为 循环 体 中 神经 网 络 的 
输入 ”。 因 为 该 神经 网 络 的 输出 为 当前 时 刻 的 状态 ， 于 是 输出 层 的 节点 个 数 也 为 h， 循 环 体 


QD 关于 单词 向 量 的 简单 介绍 可 参考 第 1 章 1.3 节 。 

@ 关于 单词 向 量 更 加 详细 的 介绍 可 以 参考 论文 : Mikolov T Sutskever I, Chen K, et al. Distributed 
Representations of Words and Phrases and their Compositionality[J]. Advances in Neural Information 
Processing Systems, 2013, 26:3111-3119. 

@ 图 中 中 间 标 有 tanh 的 小 方 框 表 示 一 个 使 用 了 tanh 作为 激活 函数 的 全 连接 神经 网 络 。 

@ 也 有 资料 中 将 会 将 上 一 时 刻 状 态 对 应 的 权重 和 当前 时 刻 输入 对 应 的 权重 特意 分 开 ， 但 它们 的 实质 是 一 
样 的。 本 节 展 示 样 例 中 为 了 方便 显示 ， 采 用 了 向 量 拼接 的 方式 ， 在 本 节 的 代码 中 为 了 方便 代码 编写 ， 
采用 了 分 开 的 方式 。 
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中 的 参数 个 数 为 (h+x)xh+h 个 。 从 图 8-4 中 可 以 看 到 , 循环 体 中 的 神经 网 络 答 出 不 但 提供 给 
了 下 一 时 刻 作为 状态 ， 同 时 也 会 提供 给 当前 时 刻 的 输出 。 为 了 将 当前 时 刻 的 状态 装 化 为 最 
终 的 输出 ， 循 环 神经 网 络 还 需要 另外 一 个 全 连接 神经 网 络 来 完成 这 个 过 程 。 这 和 卷 积 神经 
网 络 中 最 后 的 全 连接 层 的 意 义 是 一 样 的 。 类 似 的 ， 不 同时 刻 用 于 输出 的 全 连接 神经 网 络 中 
的 参数 也 是 一 致 的 。 为 了 让 读者 对 循环 神经 网 络 的 前 同 传 播 有 一 个 更 加 直观 的 认识 , 图 8-5 
展示 了 一 个 循环 神经 网 络 前 向 传播 的 具体 计算 过 程 。 


]----- 


| 





图 8-5 ”循环 神经 网 络 的 前 网 传 播 的 计算 过 程 示意 


在 图 8-5 中 ， 假 设 状 态 的 维度 为 2， 输 入、 和 输出 的 维度 都 为 1， 而 且 循环 体 中 的 全 连接 
层 中 权重 为 : \ 
ll 
0.3 0.4 
而 


偏 置 项 的 大 小 为 bn =[0.1,-0.1] ， 用 于 输出 的 全 连接 层 权重 为 ; 


1.0 
Woutput = 7 0 


偏 置 项 大 小 为 bowpw = 0.1。 那 么 在 时 刻 加 ， 因 为 没有 上 一 时 刻 ， 所 以 将 状态 初始 化 为 
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[0,0]， 而 当前 的 输入 为 1， 所 以 拼接 得 到 的 向 量 为 [0,0,1]， 通 过 循环 体 中 的 全 连接 层 神 经 网 
络 得 到 的 结果 为 : 
i : 
tanh| [0,0,1]x| 0.3 0.4 |+[0.1,-0.1] |=tank([0.6,0.5])=[0.537,0.462] 
0.5 0.6 


个 结果 将 作为 下 一 时 刻 的 输入 状态 ”同时 循环 神经 网 络 也 会 使 用 该 状态 生成 输出 。 
将 该 向 量 作为 输入 提供 给 用 于 输出 的 全 连接 神经 网 络 可 以 得 到 加 时 刻 的 最 终 输 出 : 


1.0 
[537.0462]x| ; | +0.1=1.56 


使 用 如 时 刻 的 状态 可 以 类 似 地 推导 得 出 ty 时 刻 的 状态 为 [0.860，0.884 各 ， 而 石 时 刻 的 输 
出 为 2.73。 在 得 到 循环 神经 网 络 的 前 向 传播 结果 之 后 ， 可 以 和 其 他 神经 网 络 类 似 地 定义 损 
失 函 数 。 循 环 神经 网 络 唯一 的 区 别 在 于 因为 它 每 个 时 刻 都 有 一 个 输出 ， 所 以 循环 神经 网 络 
的 总 损失 为 所 有 时 刻 〈 或 者 部 分 时 刻 ) 上 的 损失 函数 的 总 和 。 以 下 代码 实现 了 这 个 简单 的 
循环 神经 网 络 前 网 传播 的 过 程 。 


import numpy as np 


Wl 

state = [0.0, 0.0] 

# 分 开 定 义 不 同 输入 部 分 的 权重 以 方便 操作 。 

Ww cell state =<npsasarray CL[0.1, OF | 04]l 
w Cell input = np.asarray ([0.5, 0.6]) 

bcell = np:asarray (CE0. 1 =—0.1}]) 


# 定义 用 于 输出 的 全 连接 层 参数 。 
w output = np.asarray([[1.0], [2.0]1) 
b output =: .0.1 


# 按照 时 间 顺 后 闵行 依 光 机 经 风尘 的 及 交代 描 过 各 
forsie in range(lem(X)): 
# 计算 循环 体 中 的 全 连接 层 神经 网 络 。 
before activation = np.dot (state, w cell state) + 
lid nout DCerd 
state = np.tanh (before activation) 


# 根据 当前 时 刻 状态 计算 最 终 输 出 。 


final output = np.dot (state, Ww output) + b _ output 


# 输出 每 个 时 刻 的 信息 。 


print "before activation: "“, before activation 
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prante"state: ny state 
Drinob eu ontput: mn fi nal Output 


运行 以 上 程序 可 以 得 到 输出 : 

Deforemactivatlion:s ls.0..0 0;.-5 

SECaIEeR :00495 O04.02 /6 

OuULBuUe elo0L28388] 

before activation: [ 1.2923401 PR.92290;0818 

Saber mal O08 93d] 8 058836.664]a 

OEPUL a OO. 

该 输出 和 图 8-5 中 的 数字 是 一 致 的 。 

和 其 他 神经 网 络 类 似 ， 在 定义 完 损 失 函 数 之 后 ， 套 用 第 4 章 中 介绍 的 优化 框架 
TensorFlow 束 可 以 自动 完成 模型 训练 的 过 程 。 这 里 唯一 需要 特别 指出 的 是 ， 理 论 上 循环 神 
经 网 络 可 以 支持 任意 长 度 的 序列 ， 然 而 在 实际 中 ， 如 果 序 列 过 长 会 导致 优化 时 出 现 梯 度 消 
散 的 问题 (the vanishing gradient problem) “， 所 以 实际 中 一 般 会 规定 一 个 最 大 长 度 ， 当 序 
列 长 度 超过 规定 长 度 之 后 会 对 序列 进行 截断 。 


8.2 长短 时 记忆 网 络 (LTSM) 结构 


循环 神经 网 络 工作 的 关键 点 就 是 使 用 历史 的 信息 来 帮助 当前 的 决策 。 例 如 使 用 之 前 出 
现 的 单词 来 加 强 对 当前 文字 的 理解 。 循 环 神经 网 络 可 以 更 好 地 利用 传统 神经 网 络 结构 所 不 
能 建 模 的 信息 , 但 同时 , 这 也 带 来 了 更 大 的 技术 挑战 一 一 长 期 依赖 (long-term dependencies ) 
问题 。 

在 有 些 问 题 中 ， 模 型 仅仅 需要 短期 内 的 信息 来 执行 当前 的 任务 。 比 如 预测 短语 “大 海 
的 颜色 是 蓝 色 ”中 的 最 后 一 个 单词 “ 蓝 色 ”时 ， 模 型 并 不 需要 记忆 这 个 短语 之 前 更 长 的 上 
下 文 信息 一 一 因为 这 一 句 话 已 经 包含 了 足够 的 信息 来 预测 最 后 一 个 词 。 在 这 样 的 场景 中 ， 
相关 的 信息 和 竺 预测 的 词 的 位 置 之 间 的 间隔 很 小 ， 循 环 神经 网 络 可 以 比较 容易 地 利用 先前 
信息 。 

但 同样 也 会 有 一 些 上 下 文 场景 更 加 复杂 的 情况 。 比 如 当 模 型 试 着 去 预测 段落 “ 茶 地 开 
届 了 大 量 工厂 ， 空 气 污染 十 分 严重 …… 这 里 的 天 空 都 是 灰色 的 ”的 最 后 一 个 单词 时 ， 仅 仅 


人 参见 : Gustavsson A, Magnuson A, Blomberg B, et al. On the difficulty of training Recurrent Neural 
Networks[J]. Computer Science, 2013. 
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根据 短期 依赖 就 无 法 很 好 的 解决 这 种 问题 。 因为 只 根据 最 后 一 小 段 , 最 后 一 个 词 可 以 是 “ 监 
色 的 ”或 者 “灰色 的 ”但 如 果 模 型 需要 预测 清楚 具体 是 什么 颜色 ， 就 需要 考虑 先前 提 到 但 
离 当 前 位 置 较 远 的 上 下 文 信息 。 因 此 ， 当 前 预测 位 置 和 相关 信息 之 间 的 文本 间隔 就 有 可 能 
变 得 很 大 。 当 这 个 间隔 不 断 增 大 时 ， 类 似 图 8-4 中 给 出 的 简单 循环 神经 网 络 有 可 能 会 丧失 
学 习 到 距离 如 此 远 的 信息 的 能 力 。 或 者 在 复杂 语言 场景 中 ， 有 用 信息 的 间 隅 有 大 有 小 、 长 
短 不 一 ， 循 环 神经 网 络 的 性 能 也 会 受到 限制 。 

长 短 时 记忆 网 络 〈long short term memory LSTM) 的 设计 就 是 为 了 解决 这 个 问题 ， 而 
循环 神经 网 络 被 成 功 应 用 的 关键 就 是 LSTM。 在 很 多 的 任务 上 ， 采 用 LSTM 结构 的 循环 神 
经 网 络 比 标准 的 循环 神经 网 络 表现 更 好 。 在 下 文中 将 重点 介绍 LSTM 结构 。LSTM 结构 是 
由 Sepp Hochreiter 和 Jiirgen Schmidhuber* 于 1997 年 提出 的 ， 它 是 一 种 特殊 的 循环 体 结构 。 
如 图 8-6 所 示 ， 与 单一 tanh 循环 体 结构 不 同 ，LSTM 是 一 种 拥有 三 个 “ 门 ”结构 的 特殊 网 
络 结构 。 


图 8-6 LSTM 单元 结构 示意 图 


”LSTM 靠 一 些 “ 门 ”的 结构 让 信息 有 选择 性 地 影响 循环 神经 网 络 中 每 个 时 刻 的 状态 。 
所 谓 “ 门 ”的 结构 就 是 一 个 使 用 sigmoid 神经 网 络 和 一 个 按 位 做 乘法 的 操作 ， 这 两 个 操作 
合 在 一 起 就 是 一 个 “ 门 ” 的 结构 。 之 所 以 该 结构 叫做 “ 门 ” 是 因为 使 用 sigmoid 作为 激活 
函数 的 全 连接 神经 网 络 层 会 输出 一 个 0 到 1 之 间 的 数值 ， 描 述 当 前 输入 有 多 少 信 息 量 可 以 
通过 这 个 结构 。 于 是 这 个 结构 的 功能 就 类 似 于 一 扇 门 ， 当 门 打开 时 〈sigmoid 神经 网 络 层 输 


(CD Sepp Hochreiter Jiirgen Schmidhuber. Long short-term memory[J]. Neural Computation. 9 (8): 1735~1780,1997. 
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出 为 1 时 )， 全 部 信息 都 可 以 通过 ; 当 门 关上 时 (sigmoid 神经 网 络 层 输出 为 0 时 )， 任 何 信 
忌 都 无 法 通过 。 本 节 下 面 的 篇 幅 将 介绍 每 一 个 “ 门 ”是 如 何 工 作 的 。 

为 了 使 循环 神经 网 更 有 效 的 保存 长 期 记忆 ， 图 8-6 中 “ 焉 忘 门 ”和 “输入 门 ”至 关 重 
要 ， 它 们 是 LSTM 结构 的 核心 。“ 遗 起 门 ”的 作用 是 让 循环 神经 网 络 “ 起 记 ” 之 前 没有 用 
的 信息 。 比 如 一 段 文章 中 先 介绍 了 某 地 原来 是 绿 水 蓝天 ， 但 后 来 被 污染 了 。 于 是 在 看 到 被 
污染 了 了 之后， 循环 神经 网 络 应 该 “起 记 ” 之 前 绿 水 蓝天 的 状态 。 这 个 工作 是 通过 “遗忘 门 ” 
来 完成 的 “遗忘 门 ” 会 根据 当前 的 输入 x,、 上 一 时 刻 状 态 cj 和 上 一 时 刻 输 出 hj 共同 决定 
哪 一 部 分 记忆 需要 被 遗 筷 。 在 循环 神经 网 络 “ 起 记 ” 了 部 分 之 前 的 状态 后 ， 它 还 需要 从 当 
前 的 输入 补充 最 新 的 记忆 。 这 个 过 程 就 是 “输入 门 ” 完 成 的 。 如 图 8-6 所 示 ,“ 输 入 门 ”会 
根据 x,、ciy 和 hij 决定 哪些 部 分 将 进入 当前 时 刻 的 状态 ce。 比 如 当 看 到 文章 中 提 到 环境 被 
污染 之 后 ， 模 型 需要 将 这 个 信息 写 入 新 的 状态 。 通 过 “ 遗 筷 门 ” 和 “输入 门 ” LSTM 结构 
可 以 更 加 有 效 的 决定 哪些 信息 应 该 补遗 乱 ， 哪 些 信息 应 该 得 到 保留 。 

LSTM 结构 在 计算 得 到 新 的 状态 c 后 需要 产生 当前 时 刻 的 输出 ， 这 个 过 程 是 通过 “和 输 
出 门 ”完成 的 。“ 输 出 门 ” 会 根据 最 新 的 状态 c、 上 一 时 刻 的 输出 hy 和 当前 的 输入 x 来 决 
定 该 时 刻 的 输出 h.。 比 如 当前 的 状态 为 被 污染 ， 那 么 “天 空 的 颜色 ”后 面 的 单词 很 可 能 就 
是 “灰色 的 ”。 

相 比 图 8-4 中 展示 的 循环 神经 网 络 ， 使 用 LSTM 结构 的 循环 神经 网 络 的 前 向 传播 是 一 
个 相对 比较 复杂 的 过 程 。 有 具体 LSTM 每 个 “ 门 ” 中 的 公式 可 以 参考 论文 Long short-term 
memory， 本 节 不 再 闭 述 。 在 TensorFlow 中 ，LSTM 结构 可 以 被 很 简单 地 实现 。 以 下 代码 展 
示 了 在 TensorFlow 中 实现 使 用 LSTM 结构 的 循环 神经 网 络 的 前 问 传播 过 程 。 

# 定义 一 个 LSTM 结构 。 在 TensorFlow 中 通过 一 句 简单 的 命令 就 可 以 实现 一 个 完整 LSTM 结构 。 


# LSTM 中 使 用 的 变量 也 会 在 该 函数 中 目 动 被 声明 。 
lstm = rnn cell.BasicLSTMCell (lstm hidden size) 


# 将 LSTM 中 的 状态 初始 化 为 全 0 数组 。 和 其 他 神经 网 络 类 似 ， 在 优化 循环 神经 网 络 时 ， 每 次 也 
会 使 用 一 个 batch 的 训练 样本 。 以 下 代码 中 ，batch_size 给 出 了 一 个 batch 的 大 小 。. 
# BasicLSTMCell 类 提供 了 zero state 函数 来 生成 全 领 的 初始 状态 : 


state = 1stm.zero state'(batch sizey, tf.float32) 


# 定义 损失 函数 。 
Joss = 0.0 
# 在 8.1 节 中 介绍 过 ， 虽 然 理论 上 循环 神经 网 络 可 以 处 理 任意 长 度 的 序列 ， 但 是 在 训练 时 为 了 
# 避免 梯度 消散 的 问题 ， 会 规定 一 个 最 大 的 序列 长 度 。 在 以 下 代码 中 ， 用 num steps 
# 来 表示 这 个 长 度 。 
上 tonRaARGenUnm -StepPSy 3 
# 在 第 一 个 时 刻 声 明 LSTM 结构 中 使 用 的 变量 ， 在 之 后 的 时 刻 都 需要 复 用 之 前 定义 好 的 变量 。 


LE > 0: tfgqet variablesscope()sreuse variables:() 
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# 每 一 步 处 理 时 间 序 列 中 的 一 个 时 刻 。 将 当前 输入 (current input) 和 前 一 时 刻 状态 

# (state) 传 入 定义 的 LSTM 结构 可 以 得 到 当前 LSTM 结构 的 输出 1stm output 和 更 新 后 
# 的 状态 state。 

BStmsoutpoulrs Statens Lestm(eureentnp tr ate 

# 将 当前 时 刻 LSTM 结构 的 输出 传 入 一 个 全 连接 层 得 到 最 后 的 输出 。 

tinal output = fulliy connected (Lstm output) 

# 计算 当前 时 刻 输出 的 损失 。 


losse=ECalc loss(finalnoutput,: expeceedrotput 


# 使 用 类 似 第 4 章 中 介绍 的 方法 训练 模型 。 


通过 上 面 这 段 代 码 看 到 , 通过 TensorFlow 可 以 非常 方便 地 实现 使 用 LSTM 结构 的 循环 
神经 网 络 ， 而 且 并 不 需要 用 户 对 LSTM 内 部 结构 有 深入 的 了 解 。 


8.3 循环 神经 网 络 的 变种 


在 以 上 几 节 中 已 经 完整 地 介绍 了 使 用 LSTM 结构 的 循环 神经 网 络 。 这 一 节 将 再 介绍 循 
环 神经 网 络 的 几 个 常用 变种 以 及 它们 所 解决 的 问题 ,同时 也 会 给 出 如 何 使 用 TensorFlow 来 
实现 这 些 变种 。 


8.3.1 ” 双 癌 循环 神经 网 络 和 深层 循环 神经 网 络 


在 经 典 的 循环 神经 网 络 中 ， 状 态 的 传输 是 从 前 往 后 单 向 的 。 然 而 ， 在 有 些 问题 中 ， 当 
前 时 刻 的 输出 不 仅 和 之 前 的 状态 有 关系 ， 也 和 之 后 的 状态 相关 。 这 时 就 需要 使 用 双向 循环 
神经 网 络 (bidirectional RNN) 来 解决 这 类 问题 。 例 如 预测 一 个 语句 中 缺失 的 单词 不 仅 需要 
根据 前 文 来 判断 ， 也 需要 根据 后 面 的 内 容 ， 这 时 双向 循环 网 络 就 可 以 发 挥 它 的 作用 。 双 向 
循环 神经 网 络 是 由 两 个 循环 神经 网 络 上 下 疤 加 在 一 起 组 成 的 。 输 出 由 这 两 个 循环 神经 网 络 
的 状态 共同 决定 。 图 8-7 展示 了 一 个 双向 循环 神经 网 络 的 结构 图 。 

从 图 8-7 中 可 以 看 到 ， 双 向 循环 神经 网 络 的 主体 结构 就 是 两 个 单 向 循环 神经 网 络 的 结 
合 。 在 每 一 个 时 刻 t, 输入 会 同时 提供 给 这 两 个 方向 相反 的 循环 神经 网 络 ， 而 输出 则 是 由 这 
两 个 单 向 循环 神经 网 络 共同 决定 。 双 向 循环 神经 网 络 的 前 向 传播 过 程 和 单 向 的 循环 神经 网 
络 十 分 类 似 ， 这 里 就 不 再 著述 。 更 多 关于 双向 神经 网 络 的 介绍 可 以 参考 Mike Schuster 和 
Kuldip K. Paliwal 发 表 的 论文 Bidirectional recurrent neural networks®。 


() Schuster M, Paliwal K K. Bidirectional recurrent neural networks[J]. IEEE Transactions on Signal Processing, 1997. 
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图 8-7 双向 循环 神经 网 络 结构 示意 图 


深层 循环 神经 网 络 (deepRNN) 是 循环 神经 网 络 的 另外 一 种 变种 。 为 了 增强 模型 的 表 
达能 力 ， 可 以 将 每 一 个 时 刻 上 的 循环 体重 复 多 次 。 图 8-8 给 出 了 深层 循环 神经 网 络 的 结构 
示意 图 。 从 图 8-8 中 可 以 看 到 ， 相 比 8.1 节 中 介绍 的 循环 神经 网 络 ， 深 层 循环 神经 网 络 在 每 
一 个 时 刻 上 将 循环 体 结构 复制 了 多 次 。 和 卷 积 神经 网 络 类 似 , 每 一 层 的 循环 体 中 参数 是 一 致 
的 ， 而 不 同 层 中 的 参数 可 以 不 同 。 为 了 更 好 地 支持 深层 循环 神经 网 络 ，TensorFlow 中 提供 了 
MnultiRNNCell 类 来 实现 深层 循环 神经 网 络 的 前 问 传 播 过 程 。 以 下 代码 展示 如 何 使 用 这 个 类 。 


@) 中 (hy 





图 8-8 ”深层 循环 神经 网 络 结构 示意 图 
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# 定义 个 一 个 基本 的 LSTM 结构 作为 循环 体 的 基础 结构 。 深 层 循环 神经 网 络 也 支持 使 用 其 他 的 循环 
# 体 结 。 

lstm = rnn cell.BasicLSTMCell (lstm size) 

# 通过 MultiRNNCel1 类 实现 深层 循环 神经 网 络 中 每 一 个 时 刻 的 前 向 传播 过 程 。 其 中 

# number of layers 表示 了 有 多 少 层 ， 也 就 是 图 8-16 中 从 x 到 有 需要 经 过 多 少 个 LSTM 结构 。 
stacked lstm = rnn cell.MultiRNNCell([lstm] * number of layers) 


# 和 经 典 的 循环 神经 网 络 一 样 ， 可 以 通过 zero state 函数 来 获取 初始 状态 。 
states= staGked: lstm;, zero. ,state (batchesizer tf. fhoat32) 


# 和 8.2 市 中 给 出 的 代码 一 样 ， 计 算 每 一 时 刻 的 前 向 传播 结果 。 
for i in range (len (num steps)): . 
if i> 0: tf.get variable scope().reuse variables'() 
stacked lstm output, state = stacked lstm(current input, state) 
final output:= fully connected(stacked lstm output) 
loss += calc loss (final output, expected output) 
从 以 上 代码 可 以 看 到 , 在 TensorFlow 中 只 需要 在 BasicLSTMCell 的 基础 上 再 封装 一 层 
MultiRNNCell 束 可 以 非常 容易 地 实现 深层 循环 神经 网 络 了 。 


8.3.2 循环 神经 网 络 的 dropout 


6.4 节 介 绍 过 在 卷 积 神经 网 络 上 使 用 dropout 的 方法 。 通过 dropout, 可 以 让 卷 积 神经 网 
络 更 加 健壮 (robust) “。 类 似 的 ， 在 循环 神经 网 络 中 使 用 dropout 也 有 同样 的 功能 。 而 且 ， 
类 似 卷 积 神 经 网 络 只 在 最 后 的 全 连接 层 中 使 用 dropout, 循环 神经 网 络 一 般 只 在 不 同 层 循环 
体 结 构 之 则 使 用 dropout， 而 不 在 同一 层 的 循环 体 结构 之 间 使 用 。 也 就 是 说 从 时 刻 t-7 传递 
到 时 刻 上 上 时， 循环 神 经 网 络 不 会 进行 状态 的 dropout; 而 在 同一 个 时 刻 上 中， 不 同 层 循环 体 
之 间 会 使 用 dropout。 

如 图 8-9 展示 了 循环 神经 网 络 使 用 dropout 的 示意 图 。 假 设 要 从 t-2 时 刻 的 输入 x, 传 
化 到 t+7 时 刻 的 输出 yirj, 那么 xis 将 首先 传 入 第 一 层 循环 体 结构 , 这 个 过 程 会 使 用 dropout。 
但 是 从 t-2 时 刻 的 第 一 层 循环 体 结构 传递 到 第 一 层 的 -1、t、t+1 时 刻 不 会 使 用 dropout。 
在 寻 7 时 刻 的 第 一 层 循环 体 结构 传递 到 同一 时 刻 内 更 高 层 的 循环 体 结构 时 ， 会 再 次 使 用 


dropout。 


Q) Zaremba W, Sutskever I, Vinyals O. Recurrent Neural Network Regularization[J]. Eprint Arxiv, 2014. 
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Yt—2 Vt=1 Ut Yt+1l1 Vi 二 2 
A A 入 从 夫 
1 1 1 1 1 
Lt—2 Tt—l Tt Lt 十 1 Lt+2 


图 8-9 深层 循环 神经 网 络 使 用 dropout 示意 图 
(图 中 实 线 箭头 表示 不 使 用 dropout， 虚 线 箭 头 表示 使 用 dropout) 
在 Tensorflow 中 ， 使 用 ttnn.rnn _cell.DropoutWrapper 类 可 以 很 容易 实现 dropout 功能 。 
以 下 代码 展示 了 如 何在 TensorFlow 中 实现 带 dropout 的 循环 神经 网 络 。 


# 定义 LSTM 结构 。 
lstm = rnn cell.BasicLSTMCell (lstm size) 


# 使 用 DropoutWrapper 类 来 实现 dropout 功能 。 该 类 通过 两 个 参数 来 控制 dropout 的 概率 ， 
# 一 个 参数 为 input keep prob， 它 可 以 用 来 控制 输入 的 dropout 概率 "; 另 一 个 为 

井 output keep prob， 它 可 以 用 来 控制 输出 的 dropout 概率 。 

dropout lstm = tf.nn.rnn cell.DropoutWrapper (lstm, output keep prob= 0. 5) 


# 在 使 用 了 dropout 的 基础 上 定义 
stacked lstm = rnn cell.MultiRNNCell([dropout lstm] * number of layers) 


# 和 8.3.1 小 节 中 深层 循环 网 络 样 例 程序 类 似 ， 运 行 前 问 传 播 过 程 。 


8.4 ”循环 神经 网 络 桂 例 应 用 


在 以 上 几 节 中 己 经 介绍 了 不 同 循环 神经 网 络 的 网 络 结构 ， 并 给 出 了 具体 的 TensorFlow 
程序 来 实现 这 些 循环 神经 网 络 的 前 向 传播 过 程 。 这 一 节 将 给 出 两 个 具体 的 循环 神经 网 络 应 
用 样 例 一 一 自然 语言 建 模 和 时 序 预 测 。 在 8.4.1 小 节 中 将 简单 介绍 什么 是 自然 语 言 建 模 ， 并 


Q 注意 这 里 定义 的 实际 上 是 节点 被 保留 的 概率 。 如 果 给 出 的 数字 为 0.9, 那么 只 有 10% 的 节 扣 会 被 dropout。 
和 网 
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通过 TensorFlow 实现 在 Penn TreeBank (PTB) 数据 集 上 的 自然 语言 模型 。 在 8.4.2 小 节 中 
将 傈 单 介 绍 TensorFlow 的 高 层 封 装 工 具 TFLearn, 并 通过 TFLearn 实现 对 函数 sinx 取 值 的 
预测。 


8.4.1 目 然 语言 建 模 


简单 地 说 ， 语 言 模型 的 目的 是 为 了 计算 一 个 名 子 的 出 现 概 率 。 在 这 里 把 句子 看 成 是 单 
词 的 序列 ,于 是 语言 模型 需要 计算 的 就 是 p(wi,w2w3,…,wm)。 利 用 语言 模型 ， 可 以 确定 哪个 
单词 序列 出 现 的 可 能 性 更 大 ， 或 者 给 定 铬 干 个 单词 ， 可 以 预测 下 一 个 最 可 能 出 现 的 词语 。 
举 个 音字 转换 的 例子 , 假设 输入 的 拼音 串 为 “xianzaiqguna” 它 的 输出 可 以 是 “西安 在 去 哪 ”， 
也 可 以 是 “现在 去 哪 ”"。 根 据 语言 常识 可 以 知道 ， 转 换 成 第 二 个 的 概率 更 高 。 语 言 模型 就 可 
以 得 到 后 者 的 概率 大 于 前 者 ， 因 此 在 大 多 数 情 况 下 转换 成 后 者 比较 合理 。 

那么 如 何 计算 一 个 句子 的 概率 呢 ? 首先 一 个 句子 可 被 看 成 是 一 个 单词 序列 : 

S=(Wi,W2,W3,W4,W5,**,Wimn ) 

其 中 m 为 句子 的 长 度 。 那 么 ， 它 的 概率 可 以 表示 为 : 

p(S)=p(Wi,w2, Ww3, Wa, Ws,*, Wm ) 
=p(wi) p(w [wi) pws mw2) pwn | Wi Wa,***, Win-1) 

要 计算 一 个 句子 出 现 的 概率 ， 就 需要 知道 上 面 公式 中 等 式 右边 中 每 一 项 的 取 值 。 等 式 
右边 的 每 一 项 都 是 语言 模型 中 的 一 个 参数 。 一 般 来 说 ， 任 何 一 门 语 言 的 词汇 量 都 很 大 ， 词 
汇 的 组 合 更 不 计 其 数 。 为 了 估计 这 些 参数 的 取 值 ， 常 见 的 方法 有 n-gram 方法 、 决 策 树 、 最 
大 炉 模 型 、 条 件 随机 场 、 神 经 网 络 语言 模型 ， 等 等 。 本 小 节 将 先 以 其 中 最 简单 的 n-gram 模 
型 来 介绍 语言 模型 问题 以 及 评价 模型 优 劣 的 标准 。n-gram 模型 有 一 个 有 限 历史 假设 : 当前 
单词 的 出 现 概率 仅仅 与 前 面 的 n-1 个 单词 相关 。 因 此 以 上 公式 可 以 近似 为 : 

p(S)=pWi, wa, was, Wm) =| |; POwi-nt,", wi-1) 

n-gram 模型 里 的 指 的 是 当前 单词 依赖 它 前 面 的 单词 的 个 数 。 通 常 n 可 以 取 1、2、3， 
这 时 n-gram 模型 分 别称 为 unigram、bigram 和 trigram 语言 模型 。 n-gram 模型 中 需要 估计 的 
参数 为 条 件 概率 p(wi|wi_nn1,…,wi-1)。 假 设 某 种 语言 的 单词 表 大 小 为 ky， 那么 n-gram 模型 
需要 估计 的 不 同 参 数 数量 为 放 。 当 nn 越 大 时 ，n-gram 模型 理论 上 越 准确 ， 但 也 越 复 杂 ， 需 
要 的 计算 量 和 训练 语 料 数 据 量 也 就 越 大 。 因 此 ， 最 常用 的 是 bigram， 其 次 是 unigram 和 
trigram。n 取 宇 4 的 情况 非常 少 。n-gram 模型 的 参数 一 般 末 用 最 大 似 然 估 计 《maximum 
likelihood estimation，MLE) 的 方法 计算 : 


i 
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C( War Wi-1, Wi) 

p(wW: | Wi-n+l,"**, Wi-1) = “em 
其 中 C(X) 表 示 单 词 序列 XX 在 训练 语 料 中 出 现 的 次 数 。 训 练 语 料 的 规模 越 大 ， 参 数 估计 
的 结果 越 可 徘 。 但 即使 训练 数据 的 规模 非常 大 时 ， 还 是 会 有 很 多 单词 序列 在 训练 语 料 中 没 
有 出 现 过 ， 这 就 会 导致 很 多 参数 为 0。 举 个 例子 来 说 ，IBM 使 用 了 366M 英语 语 料 训练 
trigram， 发 现 14.7% 的 trigram 和 2.2% 的 bigram 在 训练 中 没有 出 现 。 为 了 避免 因为 乘 以 0 
而 导致 整个 概率 为 0， 使 用 最 大 似 然 估 计 方 法 时 都 需要 加 入 平滑 避免 参数 取 值 为 0。 使 用 
n-gram 建立 语言 模型 的 细节 不 再 赣 述 ， 感 兴趣 的 读者 可 以 看 考 书 籍 Information Retrieval: 


Implementing and Evaluating Search Engines®. 


语言 模型 效果 好 坏 的 常用 评价 指标 是 复杂 度 〈perplexity)。 简 单 来 说 ，perplexity 值 刻 
画 的 就 是 通过 某 一 个 语言 模型 估计 的 一 句 话 出 现 的 概率 。 比 如 当 已 经 知道 (wi,w2,w3,… wim) 
这 句 话 出 现在 语料库 之 中 ， 那 么 通过 语言 模型 计算 得 到 的 这 句 话 的 概率 越 高 越 好 ， 也 就 是 
perplexity 值 越 小 越 好 。 计 算 perplexity 值 的 公式 如 下 : 

I 
Perplexity(S)=p(Wi, Ww2, W3,**, Wm )™ 
] 


pWi, Wz2, 3 WO ) 





i PW wm Wi Wy} 


复杂 度 perplexity 表示 的 概念 其 实 是 平均 分 支 系数 (average branch factor)， 即 模型 预 
测 下 一 个 词 时 的 平均 可 选择 数量 。 例 如， 考虑 一 个 由 0~9 这 10 个 数字 随机 组 成 的 长 度 为 m 


的 序列 。 由 于 这 10 个 数字 出 现 的 概率 是 随机 的 ， 所 以 每 个 数字 出 现 的 概率 是 一 ， 因此 ， 


在 任意 时 刻 ， 模 型 都 有 10 个 等 概率 的 候选 答案 可 以 选择 ， 于 是 perplexity 就 是 10 (有 10 
个 合理 的 答案 )。perplexity 的 计算 过 程 如 下 : 


词 时 ， 有 89 个 词 等 可 能 地 可 以 作为 下 一 个 词 的 合理 选择 。 另 一 种 常用 的 perplexity 表达 形 
式 如 下 : 


(DBttcher S$, Clarke C L A, Cormack G V. Information Retrieval: Implementing and Evaluating Search 


Engines[M]. The MIT Press, 2016. 
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-2 p(wi [Wi, wa ,..., Wi-1) 

相 比 乘积 开 根 号 的 方式 ， 使 用 加 法 的 形式 可 以 加 速 计 算 ， 这 也 有 效 地 避免 了 概率 为 0 
时 导致 整个 计算 结果 为 0 的 问题 。 

除了 n-gram 模型 ， 循 环 神经 网 络 也 可 以 用 来 对 目 然 语 言 建 模 。 考 虑 如 图 8-10 所 示 的 
循环 神经 网 络 ， 每 个 时 刻 的 输入 为 一 个 句子 中 的 单词 ， 而 每 个 时 刻 的 输出 为 一 个 概率 分 布 ， 
表示 句子 中 下 一 个 位 置 为 不 同 单词 的 概率 。 通 过 这 种 方式 ， 对 于 给 定 的 句子 ， 就 可 以 通过 
循环 神经 网 络 的 前 向 传播 过 程 计 算出 p(wi|wi,…,wiJ1)。 比 如 在 图 8-10 中 , 在 第 一 个 时 刻 输 
入 的 单词 为 “大 海 ” 而 输出 为 p(x|“ 克 海 ”)。 也 就 是 在 知道 第 一 个 词 为 “大 海 ” 后 ， 其 他 
不 同 单词 出 现在 下 一 个 位 置 的 概率 。 比 如 从 图 8-10 中 可 以 看 出 ，P(" 1 大盗 史 =0.8， 也 
就 是 说 “大 海 ” 之 后 的 单词 为 “的 ”的 概率 为 0.8。 

类 似 的 ， 通 过 循环 神经 网 络 可 以 求 得 概率 p(x| “克海 ””“9”)) 、PG| 大海 ”AN ，“ 蕊 
记 中 、PG| “不 次 ”“h”“ 夺 启 ”“ 盘 %。 于 是 也 可 以 求 得 整个 负 子 “大 海 的 颜色 是 赣 色 ” 
的 概率 ， 从 而 计算 出 这 句 话 的 perplexity 值 。 在 本 小 节 后 面 的 篇 幅 中 将 给 出 有 具体 的 
TensorFlow 代码 来 实现 通过 循环 神经 网 络 对 目 然 语言 建 模 。 


log( perplexity(S))= 


蓝 色 ; O075 
绿色 : 0.15， 


是 : 0.8， 
;条 0Q.11, 


颜色 ; 0.9 3 


; 术 虞 : 0.05， 透明 的 : 0.1， 





权 


图 8-10 ”使 用 循环 神经 网 络 实现 自然 语言 建 模 示 意图 


PTB 文本 数据 集 介 绍 

PTB (Penn Treebank Dataset) 文本 数据 集 是 语言 模型 学 习 中 目前 最 广泛 使 用 的 数据 集 。 
本 小 节 将 在 PTB 数据 集 上 使 用 循环 神经 网 络 实现 语言 模型 。 在 给 出 语言 模型 代码 之 前 将 先 
简单 介绍 PTB 数据 集 的 格式 以 及 TensorFlow 对 于 PTB 数据 集 的 支持 。 首 先 ， 需 要 下 载 来 
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源 于 Tomas Mikolov 网 站 上 的 PTB 数据 。 数 据 的 下 载 地 址 为 : 


http://www.fit.vutbr.cz/~imikolov/rnnlm/simple-examples.tgz 


将 下 载 下 来 的 文件 解压 之 后 可 以 得 到 如 下 文件 夹 列表 


1-trainy 
2-nbest-rescore/ 
3-combination/ 
4-data-generation/ 
5-one-iter/ 
6-recovery-during-training/ 
7-dynamic-evaluation/ 
8-direct/ 
9-char-based-lm/ 
data/ 

models/ 

rnnlm-0.2b/ 


本 书 只 需要 关心 data 文件 夹 下 的 数据 ， 对 于 其 他 文件 不 再 一 一 介绍 ， 感 兴趣 的 读者 可 
以 目 行 参考 README 文件 。 在 data 文件 夹 下 总 共有 7 个 文件 ， 但 本 书 中 将 只 会 用 到 以 下 
人 

Ptb .test .七 X 七 # 测试 集 数据 文件 

ptb.train.txt  # 训练 集 数 据 文件 

ptb.valid.txt  # 验证 集 数 据 文件 

这 三 个 数据 文件 中 的 数据 已 经 经 过 了 预 处 理 ， 包 含 了 10000 个 不 同 的 词语 和 语句 结束 
标记 符 《〈 在 文本 中 就 是 换行 符 ) 以 及 标记 稀有 词语 的 特殊 符号 <unk>。 下 面 展示 了 训练 数据 
中 的 一 行 : 

mr. <unk> is chairman of <unk> n.v. the dutch publishing group 

为 了 让 使 用 PTB 数据 集 更 加 方便 ，TensorFlow 提供 了 两 个 函数 来 帮助 实现 数据 的 预 处 
理 。 首 先 ，TensorFlow 提供 了 ptb_raw_data 函数 来 读 取 PTB 的 原始 数据 ， 并 将 原始 数据 中 
的 单词 转化 为 单词 ID。 以 下 代码 展示 了 如 何 使 用 这 个 函数 。 

from tensorflow.models.rnn.ptb import reader 

# 存放 原始 数据 的 路 径 。 

DATA PATH = "/path/to/ptb/data" 

train data, valid data, test data, = reader.ptb raw data (DATA PATH) 


# 读 取 数据 原始 数据 。 


print lenl(train data) 
， 215 
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print:trainsdatal:100y 


111 
运行 以 上 程序 可 以 得 到 输出 : 

929533 

[19.970799 1 O92 7e99747 0077309N0 7 :990807 9981 99825 9983799847 75998.07299873 
99887 99897399931 0997 909093700947 m0 III 09 N20 
1 NE eS oto pe bs pe AGN/ A ON DEFTEELOE 上 4 
A LO400r7 a0 300 ED.9 0 0 S27 OD 2 AL dd 
605 772L107 9557 2470D2173 .07 I20 ror 4 e303037 A 3004r 27 OA27 4 
315074907 2037 5073 60927t424 0030730 0887 07 E24 /O00 dr tO 8.07 
2 OO 


从 输出 中 可 以 看 出 训练 数据 中 总 共 包含 了 929589 个 单词 ,而 这 些 单 词 被 组 成 了 一 个 非 


常 长 的 序列 。 这 个 序列 通过 特殊 的 标识 符 给 出 了 每 句 话 结束 的 位 置 。 在 这 个 数据 集中 ， 人 名 
子 结束 的 标识 符 ID 为 2。 


在 8.1 节 中 介绍 过 ， 虽 然 循环 神经 网 络 可 以 接受 任意 长 度 的 序列 ， 但 是 在 训练 时 需要 


将 序列 按照 某 个 固定 的 长 度 来 截断 。 为 了 实现 截断 并 将 数据 组 织 成 batch，TensorFlow 提供 
了 ptb iterator 函数 。 以 下 代码 展示 了 如 何 使 用 ptb_iterator 函数 。 
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from tensorflow.models.rnn.ptb import reader 


# 类 似 地 读 取 数据 原始 数据 。 

DATA PATH = "/path/to/ptb/data" 

train data, Valid data, test data, = reader.ptb raw data (DATA PATH) 
# 将 训练 数据 组 织 成 batch 大 小 为 4、 截断 长 度 为 5 的 数据 组 。 \ 

result = reader.ptb iterator (train data, 4, 35) 

村 六 和 半 二 全 SEE 的 入 所 天 亿 和 全 二 本 入 的 村 人 各 放 区 由 下 故园 负 。 

x, Y = result.next() 

PET Es 汪 坟 和 

oh ok nl cod at 


和 

运行 以 上 程序 可 以 得 到 输出 : 

X: [[9970 9971 9972 9974 9975] 
[ 332 7147 328 1452 8595] 
[1969 E00 dO .0.4 
[de Al 

y: [[9971 9972 9974 9975 9976] 
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[7147 328 1452 8595 59] 
[ON 0 89027000 ] 
[8 


和 和 1 


8-11 展示 了 ptb iterator 函数 实现 的 功能 。ptb_iterator 函数 会 将 一 个 长 序列 划分 为 
batch size 段 ， 其 中 batch size 为 一 个 batch 的 大 小 。 每 次 调用 ptb iterator 时 ， 该 函数 会 从 
每 一 段 中 读 取 长 度 为 num step 的 子 序列 ， 其 中 num _step 为 规 断 的 长 度 。 从 上 面 代 码 的 输 
出 可 以 看 到 ， 在 第 一 个 batch 的 第 一 行 中 ， 前 面 5 个 单词 的 ID 和 整个 训练 数据 中 前 5 个 单 
词 的 ID 是 对 应 的 。ptb_iterator 在 生成 batch 时 可 以 会 自动 生成 每 个 batch 对 应 的 正确 答案 ， 
这 个 对 于 每 一 个 单词 ， 它 对 应 的 正确 答案 就 是 该 单词 的 后 面 一 个 单词 。 





Batch 大 小 





按 长 度 共 断 的 一 个 batch 
图 8-11 将 一 个 长 序列 分 成 batch 并 截断 的 操作 示意 图 
使 用 循环 神经 网 络 实现 语言 模型 z 
在 介绍 了 语言 模型 的 理论 和 使 用 到 的 数据 集 之 后 ， 下 面 给 出 了 一 个 完成 的 TensorFlow 
样 例 程序 来 通过 循环 神经 网 络 实现 语言 模型 。 


rm elolo love ible ere 
import numpy as np 


import tensorflow as tf 
from tensorflow.models.rnn.ptb import reader 


DATA PATH = "/path/to/ptb/data" # 数据 存放 的 路 径 。 
HIDDEN SIZE = 200 # 隐藏 层 规模 。 
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NUM LAYERS 
VOCRB SIZE 


| 本 | 
卢 ND 
OO 
©O 
OO 
C3 


LEARNING RATE = 1.0 
TRALTNIBATCH: STZE :20 


# 深层 循环 神经 网 络 中 LSTM 结构 的 层 数 。 
# 词典 规模 ， 加 上 语句 结束 标识 符 和 稀有 
# 单词 标识 符 总 共 一 万 个 单词 。 


# 学 习 速 率 。 
# 训练 数据 batch 的 大 小 。 


# 训练 数据 截断 长 度 。 


# 在 测试 时 不 需要 使 用 截断 ， 所 以 可 以 将 测试 数据 看 成 一 个 超 长 的 序列 。 
EVAL BATCH SIZE = 1 # 测试 数据 batch 的 大 小 。 
EVAL NUM STEP = 1 # 测试 数据 截断 长 度 。 

NUM EPOCH = 2 # 使 用 训练 数据 的 轮 数 。 
KEEP PROB = 0.5 # 节点 不 被 dropout 的 概率 。 
MAX GRAD NORM # 用 于 控制 梯度 膨胀 的 参数 。 


TRAIN NUM STEP = 35 


| 
人 


# 通过 一 个 PTBModel 类 来 描述 模型 ， 这 样 方便 维护 循环 神经 网 络 中 的 状态 。 
class PTBModel] (object): 
def Jnit Ss(selfr lstralningnsbatchn sie num :steps) 
# 记录 使 用 的 batch 大 小 和 截断 长 度 。 
selftsbatch sizer = bat chesize 
self.num steps =. num steps 


# 定义 输入 层 。 可 以 看 到 输入 层 的 维度 为 batch size x num steps， 这 和 和 
# ptb iterator 函数 输出 的 训练 数据 batch 是 一 致 的 。 
self.input data = tf.placeholder(tf.int32, [batch size, num steps]) 


# 定义 预期 输出 。 它 的 维度 和 ptb iterator 函数 输出 的 正确 答案 维度 也 是 一 样 的 。 
self.targets = tf.placeholder (tf.int32, [batch size, num steps]) 


# 定义 使 用 LSTM 结构 为 循环 体 结 构 且 使 用 dropout 的 深层 循环 神经 网 络 。 
lstm cell = tf.nn.rnn cell.BasicLSTMCell (HIDDEN SIZE) 
王 下 记号 5 于 己 二 及 汪 TGS 
LSEIESCETLTESEEnOSTOSCedd DropoucWEaPpPes 
lstm cell output keep prob=KEEP: PROB) 
cell = tf.nn.rnn cell.MultiRNNCell ([lstm cell] * NUM LAYERS) 


# 初始 化 最 初 的 状态 ， 也 就 是 全 零 的 站 量 。 

SEE statess cell.zero state (batch size, 七 三: 于 jiOat32j 

# 将 单词 ID 转换 成 为 单词 向 量 。 因 为 总 共有 VOCRAB SIZE 个 单词 ， 每 个 单词 向 量 的 维度 
# 为 HIDDEN SIZE, 所 以 embedding 参数 的 维度 为 VOCAB SIZE X HIDDEN _ SIZE 。 
embedding = tf.get Variable("embedqdqing"，[VOCRAB SIZE, HIDDEN SIZE]) 


# 将 原本 batch size x num steps 个 单词 ID 转化 为 单词 回 量 ， 转 化 后 的 输入 层 维度 


@ 关于 更 多 关于 使 用 TensorFlow 实现 单词 向 量 的 资料 可 以 参考 TensorFlow 官方 网 站 : https://www. 


tensorflow.org/tutorials/word2vec/。 
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# 为 batch size x num steps x HIDDEN SI2ZE。 
inputs = tf.nn.embedding lookup (embedding, self.input data) 


# 只 在 训练 时 使 用 dropout。 
if is training:; inputs =- tf.nn.dropout (inputs, KEEP PROB) 


# 定义 输出 列表 。 在 这 里 先 将 不 同时 刻 LSTM 结构 的 输出 收集 起 来 ， 再 通过 一 个 全 连接 

# 层 得 到 最 终 的 输出 。 

outputs = [] 

# state 存储 不 同 batch 中 LSTM 的 状态 ， 将 其 初始 化 为 0。 

state = Self.inatial state 

with tf.variable scope ("RNN"): 

for time step in range (num steps): 

TE tImMeRSteps>a0 tf.get variable scope() .reuse variables () 
# 从 输入 数据 中 获取 当前 时 刻 获 的 输入 并 传 入 LSTM 结构 。 
cell:outputrestate =”CelLrbk(inputs [:yStime stepr dnsstate,) 
# 将 当前 输出 加 入 输出 队列 。 
outputs.append(cell output) 


# 把 输出 队列 展开 成 [batch，hidden size*num steps] 的 形状 ， 然 后 再 
# reshape 成 [batch*numsteps，hidden size] 的 形状 。 
output = tf.reshape (tf.concat (1, outputs), [~-l1l, HIDDEN SIZE]) 


# 将 从 工 STM 中 得 到 的 输出 再 经 过 一 个 全 链接 层 得 到 最 后 的 预测 结果 ， 最 终 的 预测 结果 在 
# 每 一 个 时 刻 上 都 是 一 个 长 度 为 VOCAB SIZE 的 数组 ， 经 过 softmax 层 之 后 表示 下 一 个 
# 位 置 是 不 同 单词 的 概率 。 

weight = tf.get Variable("welght"， [HIDDEN SIZE, VOCAB SIZE]) 

bias = tf.get variable ("bias", LVOCAB SIZE]) 

logits = tf.matmul (output, weight) + bias 


# 定义 交叉 炉 损 失 函 数 。TensorFlow 提供 了 sequence loss by example 函数 来 计 
# 算 一 个 序列 的 交 义 灼 和 。 
loss = tf.nn;seq2seq.sequence’ loss by example'\ 

[logits], # 预测 的 结果 。 

[tf.reshape (self.targets, [-1])], # 期 竺 的 正确 答案 ， 这 里 将 

Se ; # [batch size, num steps] 
# 二 维 数组 压缩 成 一 维 数组 。 

# 损失 的 权重 。 在 这 里 所 有 的 权重 都 为 1， 也 就 是 说 不 同 batch 和 不 同时 刻 

# 的 重要 程度 是 一 样 的 。 

[tfsones([tbatch® size * num steps],.dtype=tf:float32)]) 


# 计算 得 到 每 个 batch 的 平均 损失 。 
self.cost = tf.reduce sum(loss) / batch size 
self .finals state =%state 


# 只 在 训练 模型 时 定义 反 向 传播 操作 。 


fenot is tralining return 
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trainable variables = tf.trainable variables () 
# 通过 clip by_global norm 函数 控制 梯度 的 大 小 ， 避 免 梯 度 膨胀 的 问题 。 
rads em etE Cl1ip byeglobale norm 


tf.gradients (self.cost, trainable variables), MAX GRAD NORM) 


# 定义 优化 方法 。 
optimizer = tf.train.GradientDescentOptimizer (LEARNING_RRATE) 
# 定义 训练 步 又 。 
self.train op = optimizer.apply gradients\( 
zip(grads, trainable variables)) 


# 使 用 给 定 的 模型 model 在 数据 data 上 运行 train op 并 返回 在 全 部 数据 上 的 perplexity 值 。 


def run epoch(session, model], data, train opr output lo0g): 


# 计算 perplexity 的 辅助 变量 。 
total costss=°0:0 
liters = 0 
state ==session.run(model.initial state) 
# 使 用 当前 数据 训练 或 者 测试 模型 。 
for step, (x, y) in enumeratel 
reader.ptb iterator(data, model.batch size model.num steps)): 
# 在 当前 batch 上 运行 train op 并 计算 损失 值 。 交 叉 炉 损失 函数 计算 的 就 是 下 一 个 单 
# 词 为 给 定单 词 的 概率 。 
costr>stater, = sessionsEuan 人 
[Imodel.cost, model.final statey train opl]; 
{model.input data: x, model.targets: y, 
nodedeinitualnstatessstate}) 
# 将 不 同时 刻 、 不 同 batch 的 概率 加 起 来 就 可 以 得 到 第 二 个 perplexity 公式 等 号 右 
# 边 的 部 分 ， 再 将 这 个 和 做 指数 运算 就 可 以 得 到 perplexity 值 。 
EOCoEeCGSsts + COSt 
EenSsat sanodelF nu steps 


# 只 有 在 训练 时 输出 日 志 。 
if output log and step % 100 == 
print ("After %d steps, perplexity is: %$.3f'" % ( 
step, np.exp(total costs / iters))) 


# 返回 给 定 模型 在 给 定数 据 上 的 i 值 。 


return np.exp(total costs / iters) 
> 


def maln( ) : 


# 获取 原始 数据 。 
train datgs，valid data, test data, = reader.ptb raw data (DATA PATH) 


# 定义 初始 化 函数 。 
initlalizer =*tf.randome uniform initliallizer (=005R0r05) 


# 定义 训练 用 的 循环 神经 网 络 模 型 。 
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with tf.variable 2SCcope:Gelanguage. model", 
reuse=None, initializer=initializer): 
train model = PTBModel (True, TRAIN BATCH SIZE, TRAIN NUM STEP) 


# 定义 评测 用 的 循环 神经 网 络 模型 。 
with tf.variable scope("language model", 
reuse=True, initializer=initializer): 
eval model = PTBModel (False, EVAL BATCH SIZE, EVAL NUM STEP,) 


with tf.Session() as session: 
teamnitlialize allsvarliables() rundl) 


# 使 用 训练 数据 训练 模型 。 
tor irnerange(NUMEPoOCH):: 
BEint (initeratron ev (nt 
# 在 所 有 训练 数据 上 训练 循环 神经 网 络 模 型 。 
run epochl(session, train model, 
train sdata train- model.train®s opy :TruUe) 


# 使 用 验证 数据 评测 模型 效果 。 
Valid perplexity = run epoch ( 
session, eval model, valid data, tf.no i a 
print ("Epoch: %d Validation Perplexity: %.3f" % (人 
I= tl valid perplexity),) 


# 最 后 使 用 测试 数据 测试 模型 效果 。 
test perplexity = run epoch ( 

session, eval model, test data, tf.no op()y False) 
print'(u Test Perplexity: %.3£f" $% test perplexity) 


ns 
ChEappe un 


运行 以 上 程序 可 以 得 到 类 似 如 下 的 输出 ”: 


EALOn: 人 二 

AFftereOaSsteps rperplexityatsyi000383 

After 100 steps, perplexity is 1404.742 
After 200StLepsr: perplexitysiSseli06l:458 
After 300 steps, perplexity is 891.044 

After 400 steps, perplexity is 782.037 


Q) 在 TensorFlow 0.9.0 下 运行 会 提示 :“WARNING:tensorflow:<tensorflow.python.ops.rnn_cell.BasictLSTMC 
ell object at Ox7fcb4f3ael50>: Using a concatenated state ls slower and will soon be deprecated. U 
se state_is_tuple=True.” 这 不 会 影响 运行 。 但 是 TensorFlow0.9.0 对 state_is_tupe=True 不 文 持 ， 所 以 书 
中 没有 设置 ， 在 TensorFlow 更 高 的 版 本 中 可 以 将 state is_tuple 参数 设置 为 True。 
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After<1TL00SstepsriperplexTt yrESsm eT Ll 
After 1200 steps, perplexity is 226.093 
After 1300 steps, perplexity is 223.214 
Epoch: 2 Validation Perplexity: 183.443 
Test Perplexity: 179.420 


从 输出 可 以 看 出 ， 在 友 代 开始 时 perplexity 值 为 10003.783， 这 基本 相当 于 从 一 万 个 单 
词 中 随机 选择 下 一 个 单词 。 而 在 训练 结束 后 ， 在 训练 数据 上 的 perplexity 值 降 低 到 了 
179.420。 这 表明 通过 训练 过 程 ， 将 选择 下 一 个 单词 的 范围 从 一 万 个 减 小 到 了 大 约 180 个 。 
通过 调整 LSTM 隐藏 层 的 节点 个 数 和 大 小 以 及 训练 迭代 的 轮 数 还 可 以 将 perplexity 值 降 到 
更 低 。 


8.4.2 时间 序列 预测 


本 小 节 将 介绍 如 何 利用 循环 神经 网 络 来 预测 正弦 〈sin) 函数 "， 图 8-12 给 出 了 sin 函 
数 的 函数 图 像 。 在 给 出 具体 的 TensorFlow 代码 之 前 ,本 小 节 将 先 介 绍 另外 一 个 对 TensorFlow 
的 高 层 封 装 一 -TFLearme。 和 第 6 章 中 介绍 的 TensorFlow-Slim 类 似 , 通过 使 用 TFLearn 可 
以 让 TensorFlow 代码 效率 进一步 提高 。 


1.0 


0.5 

0.0 
=0.5 。 
一 .0 


0 200 400 600 800 1000 


图 8-12 sin 函数 曲线 


Q 本 小 节 部 分 内 容 参 考 自 : http://mourafiq.com/2016/05/15/predicting-sequences-using-rnn-in-tensorflow.html 
@) TFLearn 又 名 skflow， 它 们 是 同一 套 系统 。 
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使 用 TFLearn 自 定 义 模 型 


TensorFlow 的 另外 一 个 高 层 封装 TFLearn( 集 成 在 tf.contrib.learmn 里 ) 对 训练 TensorFlow 
模型 进行 了 一 些 封装 ,使 其 更 便于 使 用 。 本 小 节 将 通过 iris 数 据 集 简单 介绍 如 何 使 用 TFLeam 
实现 分 类 问题 。iris 数据 集 需 要 通过 4 个 特征 〈feature) 来 分 辩 三 种 类 型 的 植物 。iris 数据 
集中 总 共 包含 了 150 个 样本 ".。 以 下 程序 展示 了 如 何 通过 TFLearn 快速 的 解决 iris 分 类 问题 


# 一 *- coding: utf-8 一 * 一 


# 为 了 方便 数据 处 理 ， 本 程序 使 用 了 sklearn 工具 包 ， 关 于 这 个 工具 包 更 多 的 信 2 
# http://scikit-learn.org/。 

from sklearn import cross validation 

from sklearn import datasets 

from sklearn import metrics 

import tensorflow as tf 


# 导入 TFLearn。 


Jearne = atE GOnNntrib. Learn 


# 上 自 定义 模型 ， 对 于 给 定 的 输入 数据 (features) 以 及 其 对 应 的 正确 答案 ‘target)， 返 回 在 这 
# 些 输入 上 的 预测 值 、 损 失 值 以 及 训练 步骤 。 
def my model(features, target): 
# 将 预测 的 目标 转换 为 one-hot 编码 的 形式 ， 因 为 共有 三 个 类 别 ， 所 以 向 量 长 度 为 3。 经 过 转 
# 化 后 ， 第 一 个 类 别 表示 为 (1, 0,0)， 第 二 个 为 (0,1,0)， 第 三 个 为 (0,0,1)。 
Largeta= CE aones ho (targetyr,. 3 LO 


# 定义 模型 以 及 其 在 给 定数 据 上 的 损失 函数 。TFLearn 通过 logistic regression 封装 了 
# 一 个 单 层 全 连接 神经 网 络 。 


logits, loss = learn.models.logistic regression (features, target) 


# 创建 模型 的 优化 器 ， 并 得 到 优化 步 又 。 


trarnsops= tf oontribe layers. optimizesloss( 


loss, # 损失 函数 
tf.contrib.framework.get global_ step ()，# 获取 训练 步 数 并 在 训练 时 更 新 
optimizer='Adagrad', # -定义 优化 器 : 
learning. rate=0-L) #: 定 义学 习 汉 


# 返回 在 给 定数 据 上 的 预测 结果 、 损 失 值 以 及 优化 步骤 。 


reaturnebtt:arg max( log lr oss traLn: op 


# 加 载 iris 数据 集 ， 并 划分 为 训练 集合 和 测试 集合 。 
irTiS =—datasets load “iris() 
Eran etry ralnp vetest = Crosst validation. train test split:( 


@ 更 多 关于 iris 数据 集 的 信息 可 以 参考 : http://archive.ics.uci.edu/ml/datasets/Iris。 
, 223 
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iris:dataysiris.target, test size=0.52y 5randomgEstatead) 


# 对 自 定义 的 模型 进行 封闭 。 


classifier = learn.Estimator (model fn=my model) 


# 使 用 封装 好 的 模型 和 训练 数据 执行 100 轮 运 代 。 


chassificerSeit(xetralnie vy rarn sstepss.00 


# 使 用 训练 好 的 模型 进行 结果 预测 。 


y predicted = classifier.predict (x. test) 


# 计算 模型 的 准确 度 。 


score = metrics.accuracy Score (yY test, y predicted) 


© 


PEINE (ZACCULAaCY Wu tottus COrer el.0)s) 
运行 以 上 程序 可 以 得 到 输出 : 
Accuracy, “90.00% 


反 必 让 


通过 以 上 程序 可 以 看 出 TFLeam 既 封装 了 一 些 常 用 的 神经 网 络 结构 ， 又 省 去 了 模型 训 
练 的 部 分 ， 这 让 TensorFlow 的 程序 可 以 变 得 更 加 人 简短。 

预测 正 缀 函数 

通过 TFLearn， 下 面 的 篇 幅 将 给 出 具体 的 TensorFlow 程序 来 实现 预测 正弦 函数 sin。 
为 标准 的 循环 神经 网 络 模型 预测 的 是 离散 的 数值 ， 所 以 在 程序 中 需要 将 连续 的 sin 函数 曲 
线 离散 化 。 所 谓 离散 化 就 是 在 一 个 给 定 的 区 间 [0, MAX] 内 ， 通 过 有 限 个 采样 点 模拟 一 个 连 
续 的 曲线 。 比 如 在 以 下 程序 中 每 隔 SAMPLE ITERVAL 对 sin 函数 进行 一 次 采样 ， 采 样 得 
到 的 序列 就 是 sin 函数 离散 化 之 后 的 结果 。 以 下 程序 为 预测 离散 化 之 后 的 sin 函数 。 


\ 


# =*- coding: utf-8 一 类 = 


import numpy as np 
import tensorflow as tf 


# 加 载 matplotlib 工具 包 ， 使 用 该 工具 可 以 对 预测 的 sin 函数 曲线 进行 绘图 。 
import matplotlib as mpl 

mpl:use'( “Agg!) 

from matplotlib import pyplot as pilit 


Tearns= tCOnNnEribalearn 


HIDDEN SIZE = 30 # ISTM 中 隐藏 节 扣 的 个 数 。 
NUM LAYERS = 2 # LSTM 的 层 数 。 
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TIMESTEPS = 10 # 循环 神经 网 络 的 截断 长 度 。 
TRAINING STEPS = 10000 # 训练 轮 数 。 

BATCH SIZE = 32 # batch 大 小 。 

TRAINING EXAMPLES = 10000 # 训练 数据 个 数 。 

TESTING EXAMPLES = 1000 # 测试 数据 个 数 。 

SAMPLE GAP = 0.01 # 采样 间隔 。 


def generate data (seq): 
| 
Ya 
# 序列 的 第 i 项 和 后 面 的 TIMESTEPS-1 项 合 在 一 起 作为 输入 ; 第 i + TIMESTEPS 项 作为 输 
# 出 。 即 用 sin 函数 前 面 的 TIMESTEPS 个 点 的 信息 ， 预 测 第 i + TIMESTEPS 个 点 的 函数 值 。 
OIL in range (len (sed) EMESTEPSS 2 LD):: 
X.append([seq[i: i + TIMESTEPS]]) 
y.append([seqgql[i + TIMESTEPS]]) 
return np.array (X, dtype=np.float32), np.array(y, dtype=np.float32) 


def lstm model (X, y): 
# 使 用 多 层 的 1stm 结构 。 
lstm cell = tf.nn.rnn cell.BasicLSTMCell (HIDDEN SIZE) 
Cell = tf.nn:rnn Cell.MultiRNNCell([flstm celll] * NUM LAYERS) 
x = tf.unpack(X, axis=1)o 


# 使 用 TensorFlow 接口 将 多 层 的 LSTM 结构 连接 成 RNN 网 络 并 计算 其 前 向 传播 结果 。 
output, nn nn( cel ex dtype=ttflioat32) 


# 在 本 问题 中 只 关注 最 后 一 个 时 刻 的 输出 结果 ， 该 结果 为 下 一 时 刻 的 预测 值 。 
output = output[-1] 


# 对 LSTM 网 络 的 输出 再 做 加 一 层 全 链接 层 并 计算 损失 。 注 意 这 里 默认 的 损失 为 平均 
# 平方 差 损 失 函 数 。 


EPEedITCEEEODnAEIDOSS 交 三 learn.models.linear regression (output, y) 


# 创建 模型 优化 器 并 得 到 优化 步骤 。 

train op = tf.contrib.layers.optimize loss ( 
lossr > tf-Contrib:framework.get. global step{), 
optimizer="Adagrad", learning rate=0.1) 


returnsprediction,*lossy train op 


# 建立 深层 循环 网 络 模型 。 


I 此 处 要 求 TensorFlow0.10.0 及 以 上 版 本 。 
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regressor = learn.Estimator (model] fn=lstm model) 


# 用 正弦 函数 生成 训练 和 测试 数据 集合 。 
# numpy .linspace 畏 数 可 以 创建 一 个 等 差 序 列 的 数组 ， 它 常用 的 参数 有 三 个 参数 ， 第 一 个 参数 
# 表示 起 始 值 , 第 二 个 参数 表示 终止 值 , 第 三 个 参数 表示 数列 的 长 度 。 例 如 , linespace (1,10,10) 
划 : 产 生 的 数组 是 acerFayitET :2275374575677 二 8 了 920]75 
test. Start: =; TRAINING EXAMPLES. * -SAMPLE-GAP 
test end = (TRAINING. EXAMPLES + TESTING EXAMPLES) * SAMPLE GAP 
train X, train y = generate datal(np.sinl(np.linspace( 
0, test start, TRAINING EXAMPLES, dtype=np.float32))) 
test rest y= generate data'(np. SIN (npsLlinspace 
test start, test end, TESTING EXAMPLES, dtype=np.float32))) 


# 调用 fit 函数 训练 模型 。 
regressor.fit(train X, train y,: batceh size=BATCH SIZEY 
steps=TRAINING STEPS) 


# 使 用 训练 好 的 模型 对 测试 数据 进行 预测 。 

predicted:=°[:[pred]:for. pred :in regressorspredict(testsX) 
# 计算 rmse 作为 评价 指标 。 

rmse’= npssqrt'\(((predicted = test y) **" 2)%mean(axis=0))) 
print ("Mean Square Error is: %f" $% rmse[0]) 


运行 以 上 程序 可 以 得 到 输出 : ” 
Mean Square Error is: 0.002183 
从 输出 可 以 看 出 通过 循环 神经 网 络 可 以 非常 精确 的 预测 正弦 函数 sin 的 取 值 。 


# 对 预测 的 sin 函数 曲线 进行 绘图 ， 并 存储 到 运行 目录 下 的 sin.png 

fig = plt.figure!() 

plot predicted = plt.plot (predicted, label= 'predicted') 
plottest=-pltplot(test:y7 label='real = sins) 

plt.legend([plot predicted, plot test], ['predicted', 'real sin']) 


# 得 到 的 结果 如 图 8-21 所 示 。 

fig.savefig('sin.png') 

从 图 8-13 中 可 以 看 出 ， 预 测 得 到 的 结果 和 真实 的 sin 函数 几乎 是 重合 的 。 也 就 是 说 通 
过 循环 神经 网 络 可 以 非常 好 地 预测 sin 函数 的 取 值 。 


QD 运行 该 程序 可 能 会 因为 TFLearn 的 版 本 而 得 到 一 些 warming, 但 这 些 warning 不 会 影响 程序 的 正 
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区 


predicted 
— real_ sin 





“0 200 400 600 800 1000 


图 8-13 ”通过 循环 神经 网 络 预测 sin 函数 得 到 的 结果 
+ 
小 结 


本 章 详细 介绍 了 循环 神经 网 络 的 整体 架构 ， 并 介绍 了 循环 神经 网 络 中 最 常用 的 LSTM 
结构 。 在 本 章 中 也 给 出 了 两 个 具体 的 样 例 来 介绍 如 何 将 循环 神经 网 络 应 用 于 实际 问题 之 中 。 
自 先 ， 在 本 章 的 8.1 节 中 讲解 了 什么 是 循环 神经 网 络 。 在 这 一 节 中 介绍 了 循环 神经 网 络 的 
整体 结构 ， 并 给 出 了 一 个 具体 的 样 例 来 说 明 循 环 神经 网 络 是 如 何 工 作 的 。 接 着 ， 在 8.2 节 
中 介绍 循环 神经 网 络 中 使 用 的 最 为 广泛 的 LSTM 结构 , 大致 介 绍 了 LSTM 结构 的 主要 成 分 ， 
并 给 出 了 具体 的 TensorFlow 样 例 程序 来 实现 使 用 了 LSTM 结构 的 循环 神经 网 络 。 然 后 ， 在 
8.3 节 中 介绍 了 LSTM 结构 的 一 些 主流 变种 。 最 后 ,在 8.4 节 中 给 出 了 使 用 循环 神经 网 络 解 
决 具体 问题 的 两 个 案例 。 在 8.4.1 小 节 中 介绍 了 如 何 使 用 循环 神经 网 络 实现 上 自然 语言 模型 ; 
在 8.4.2 小 节 介 绍 了 通过 TensorFlow 的 高 层 封装 TFLearn 实现 时 序 预 测 问题 。 
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前 面 的 章节 已 经 介绍 了 如 何 使 用 TensorFlow 实现 常用 的 神经 网 络 结构 。 在 将 这 些 神经 
网 络 用 于 实际 问题 之 前 ， 需 要 先 优化 神经 网 络 中 的 参数 。 这 就 是 训练 神经 网 络 的 过 程 。 训 
练 神经 网 络 十 分 复 杀 ， 有 时 需要 几 天 甚至 几 周 的 时 间 。 为 了 更 好 的 管理 、 调 试 和 优化 神经 
网 络 的 训练 过 程 ，TensorFlow 提供 了 一 个 可 视 化 工具 TensorBoard。TensorBoard 可 以 有 效 
地 展示 TensorFlow 在 运行 过 程 中 的 计算 图 、 各 种 指标 随 着 时 间 的 变化 趋势 以 及 训练 中 使 用 
到 的 图 像 等 信息 。 

本 章 将 详细 介绍 TensorBoard 的 使 用 方法 。 首 先 ，9.1 节 将 介绍 TensorBoard 的 基础 知 
识 ， 并 通过 TensorBoard 来 可 视 化 一 个 简单 的 TensorFlow 样 例 程序 。 在 这 一 节 中 将 介绍 如 
何 局 动 TensorBoard， 并 大 致 讲解 TensorBoard 提供 的 几 类 可 视 化 信息 。 然 后 ，9.2 市 将 介绍 
通过 TensorBoard 得 到 的 TensorFlow 计算 图 的 可 视 化 结果 。TensorFlow 计算 图 保存 了 
TensorFlow 程序 计算 过 程 的 所 有 信息 。 因 为 TensorFlow 计算 图 中 的 信息 含量 较 多 ， 所 以 
TensorBoard 设计 了 一 套 交 互 过 程 来 更 加 清晰 地 呈现 这 些 信 息 。 在 这 一 节 中 将 详细 介绍 
TensorBoard 的 交互 流程 以 及 可 视 化 结果 中 提供 的 信息 。 最 后 ，9.3 节 将 详细 讲解 如 何 使 用 
TensorBoard 对 训练 过 程 进行 监控 ， 以 及 如 何 通 过 TensorFlow 指定 需要 可 视 化 的 指标 。 在 
这 一 节 中 给 出 了 完整 的 样 例 程序 介绍 如 何 得 到 可 视 化 结果 。 


9.1 TensorBoard 简介 


TensorBoard 是 TensorFlow 的 可 视 化 工具 ， 它 可 以 通过 TensorFlow 程序 运行 过 程 中 输 
出 的 日 志文 件 可 视 化 TensorFlow 程序 的 运行 状态 。TensorBoard 和 TensorFlow 程序 跑 在 不 
同 的 进程 中 , TensorBoard 会 自动 读 取 最 新 的 TensorFlow 日 志文 件 , 并 呈现 当前 TensorFlow 
程序 运行 的 最 新 状态 。 以 下 代码 展示 了 一 个 简单 的 TensorFlow 程序 ， 在 这 个 程序 中 完成 了 
TensorBoard 日 志 输 出 的 功能 。 
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import tensorflow as tf 


# 定义 一 个 简单 的 计算 图 ， 实 现 向 量 加 法 的 操作 。 

inputl1 = tf.constant ([1.0, 2.0, 3.0], name="input1") 

input2 = tf.Variable (tf.random uniform([3]), name="input2") 
output = tf.add mn( [npPutl7 input2]; name="add") 


# 生成 一 个 写 日 志 的 writer， 并 将 当前 的 TensorFlow 计算 图 写 入 日 志 。TensorFlow 提供 了 多 
# 种 写 日 志文 件 的 API， 在 9.3 节 中 将 详细 介绍 。 

writer = tf.train.SummaryWriter("/path/to/log", tf.get default graph()) 
writer.close () 


以 上 程序 输出 了 TensorFlow 计算 图 的 信息 ， 所 以 运行 TensorBoard 时 ， 可 以 看 到 这 个 
问 量 相 加 程序 计算 图 可 视 化 之 后 的 结果 。TensorBoard 不 需要 额外 的 安装 过 程 ， 在 
TensorFlow 安装 完成 时 ,TensorBoard 会 被 自动 安装 ,运行 下 面 的 命令 可 以 启动 TensorBoard。 

# 运行 TensorBoard， 并 将 日 志 的 地 址 指向 上 面 程序 日 志 输 出 的 地 址 。 

tensorboard --logdir=/path/to/log 

运行 上 面 的 命令 会 启动 一 个 服务 ， 这 个 服务 的 端口 默认 为 6006”。 通 过 浏览 器 打开 
localhost:6006， 可 以 看 到 图 9-1 所 示 的 界面 。 在 界面 的 上 方 ， 可 以 看 到 有 五 栏 ， 分 别 是 
EVENTS、IMAGES、AUDIO、GRAPHS 和 HISTOGRAMS。TensorBoard 中 每 一 栏 都 对 应 
了 一 类 信息 的 可 视 化 结果 ， 在 下 面 的 章节 中 将 具体 介绍 每 一 栏 的 功能 。 如 图 9-1 所 示 ， 打 
开 TensorBoard 界面 会 默认 进入 EVENTS 栏 。 因 为 上 面 的 程序 没有 输出 任何 由 EVENTS 栏 
可 视 化 的 信息 ， 所 以 这 个 界面 显示 的 是 “No scalar data was found.”( 没 有 发 现 标量 数据 )。 
点 击 进 入 GRAPHS 栏 , 可 以 看 到 上 面 程序 TensorFlow 计算 图 的 可 视 化 结果 。 图 9-2 展示 了 
这 个 TensorFlow 计算 图 的 可 视 化 结果 。9.2 节 将 详细 介绍 如 何 理解 TensorFlow 计算 图 的 可 
视 化 结果 中 提供 的 信息 。 


Wieereney focreate siagyrup XX 
No scalar data was found， 
Probsble causes- 


. Youhaven Written sny scalsr dzta to your event files, 
» Tensor6oard cant find your event 人 jes. 


tf youYe new to using TensorBosrd, and want to find out how to add deta 
Bnd set up YOUr even files, chsck out the README and psrhaps the 
TensorBoard hitorial 


If you think TensorBoard is configured propetly, please See the section of 
the README devoted to missing dala pioblems and consider flling en jssue 


We a re 有 RS 


你 


一 一 一 一 on GitHub. 





图 9-1 TensorBoard 默认 栏 界面 


( 使 用 --port 参数 可 以 改变 启动 服务 的 端口 。 
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NS 一 


”图 9-2 使 用 TensorBoard 可 视 化 向 量 相 加 程序 TensorFlow 计算 图 的 结果 


9.2 TensorFlow 计算 图 可 视 化 


在 图 9-2 中 给 出 了 一 个 TensorFlow 计算 图 的 可 视 化 效果 图 。 然 而 ， 从 TensorBoard 可 
视 化 结果 中 可 以 获取 的 信息 远 不 止 图 9-2 中 所 示 的 这 些 。 这 一 节 将 详细 介绍 如 何 更 好 地 利 
用 TensorFlow 计算 图 的 可 视 化 结果 。 首 先 ，9.2.1 小 节 将 介绍 通过 TensorFlow 节 扣 的 命名 
空间 整理 TensorBoard 可 视 化 得 到 的 TensorFlow 计算 图 。 在 第 3 章 中 介绍 过 ，TensorFlow 
会 将 所 有 的 计算 以 图 的 形式 组 织 起 来 。TensorBoard 可 视 化 得 到 的 图 并 不 仅 是 将 TensorFlow 
计算 图 中 的 节点 和 边 直 接 可 视 化 ， 它 会 根据 每 个 TensorFlow 计算 节点 的 命名 空间 来 整理 可 
视 化 得 到 的 效果 图 ， 使 得 神经 网 络 的 整体 结构 不 会 被 过 多 的 细节 所 淹没 。 除 了 显示 
TensorFlow 计算 图 的 结构 ，TensorBoard 还 可 以 展示 TensorFlow 计算 节点 上 的 其 他 信息 。 
然后 ，9.2.2 小 节 将 详细 介绍 如 何 从 可 视 化 结果 中 获取 TensorFlow 计算 图 中 的 这 些 信 息 。 


9.2.1 命名 空间 与 TensorBoard 图 上 站 点 


在 9.1 节 给 出 的 样 例 程序 中 只 定义 了 一 个 加 法 操作 , 然而 从 图 9-2 中 可 以 看 到 , 将 这 个 
TensorFlow 计算 图 可 视 化 得 到 的 效果 图 上 却 有 八 个 节点 。 除 去 声明 标量 、 第 量 所 产生 的 
点 ， 变 量 的 初始 化 过 程 也 会 产生 新 的 计算 节点 。 更 重要 的 是 ， 这 些 节点 的 排列 可 能 会 比较 
乱 ， 这 导致 主要 的 计算 节点 可 能 被 埋没 在 大 量 信息 量 不 大 的 节点 中 ， 使 得 可 视 化 得 到 的 效 
果 图 很 难 理解 。 比 如 在 图 9-2 中 ，TensorFlow 中 定义 的 加 法 运算 所 代表 的 节点 只 显示 在 了 
右 侧 一 个 较 小 的 区 域 ， 基 本 上 被 变量 初始 化 的 操作 所 埋没 。 可 以 想象 ， 一 个 复杂 的 神经 网 
络 模型 所 对 应 的 TensorFlow 计算 图 会 比 9.1 节 中 简单 的 向 量 加 法 样 例 程序 的 计算 图 复杂 很 
多 ， 那 么 没有 经 过 整理 得 到 的 可 视 化 效果 图 并 不 能 帮助 很 好 地 理解 神经 网 络 模型 的 结构 。 

为 了 更 好 地 组 织 可 视 化 效果 图 中 的 计算 节点 ，TensorBoard 支持 通过 TensorFlow 命名 
空间 来 整理 可 视 化 效果 图 上 的 节点 。 在 TensorBoard 的 默认 视图 中 ，TensorFlow 计算 图 中 
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同一 个 命名 空间 下 的 所 有 节点 会 被 缩 略 成 一 个 节点 ， 只 有 顶层 命名 空间 中 的 节点 才 会 被 显 
示 在 TensorBoard 可 视 化 效果 图 上 。 在 5.3 节 中 已 经 介绍 过 变量 的 命名 空间 ， 以 及 如 何 通 过 
tf.variable_scope 水 数 管理 变量 的 命名 空间 。 除 了 tf.variable_scope 函数 ,tf.name scope 函数 
也 提供 了 命名 空间 管理 的 功能 。 这 两 个 函数 在 大 部 分 情况 下 是 等 价 的 ， 唯 一 的 区 别 是 在 使 
用 给 get_variable 函数 时 。 以 下 代码 简单 地 说 明了 这 两 个 函数 的 区 别 。 


import tensorflow as tf 


with tf.variable scope ("foo"): 
# 在 命名 空间 foo 下 获取 变量 “bar”， 于 是 得 到 的 变量 名 称 为 “foo/bar”。 
as= ttetsvarlaDle (ary Ll) 
print a.name # 输出 : foo/bar:0 


withtfevariables scope (Dar®): 
# 在 命名 空间 bar 下 获取 变量 “bar”， 于 是 得 到 的 变量 名 称 为 “bar/bar”。 此 时 变量 
# “bar/bar” 和 变量 “foo/bar” 并 不 神 突 ， 于 是 可 以 正常 运行 。 
D-=ubt i etevariable(sbaryysalsLdly 
print b.name # 输出 : bar/bar:0 


withtfename ‘scope'("a): 
# 使 用 tf.Variable 函数 生成 变量 会 受 tf.name scope 影响 ， 于 是 这 个 变量 的 名 称 
# a Variabdle 
a = tf.Variable([1]) 
print a.name # 输出 : a/Variable:0 


# tf.get variable 函数 不 受 tf.name scope 函数 的 影响 ， 

# 于 是 变量 并 不 在 a 这 个 命名 空间 中 。 

av=mtfsGet variadle. bl 

print a.name # 输出 : b:0 


with tf.name scope("b"): 


# 因为 tf.get variable 不 受 tf.name scope 影响 ， 所 以 这 里 将 试图 获取 和 名称 

# 为 “a” 的 变量 。 然 而 这 个 变量 已 经 被 声明 了 ， 于 是 这 里 会 报 重复 声明 的 错误 : 

大 es Variable bar already exists, disallowed. Did you mean 
# to set reuse=True in VarScope? Originally defined at: .. 

“tf getr variable( by Eid]:) 


通过 对 命名 空间 管理 ， 可 以 改进 9.1 市 中 向 量 相 加 的 样 例 代码 ， 使 得 可 视 化 得 到 的 效 
采 图 更 加 清晰 。 以 下 代码 展示 了 改进 的 方法 。 


‘import tensorflow as tf 


# 将 输入 定义 放 入 各 自 的 命名 空间 中 ， 从 而 使 得 TensorBoard 可 以 根据 命 名 空间 来 整理 可 视 化 效 
# 条 图 上 的 节 氮 。 
with tf.name. scope( InPUt12) : 

ELLDPU 七 上 一 二 fconstant([l:07 2 07 3a0lr name= inputL") 
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with ctfsname scope ("input2"): 
input2 = tf.Variable(tf.random uniform([3]), name="input2") 
outputs=tfsadd nttinputlr inputal snanmes=radd 


writer = tf.train.SummaryWriter("/path/to/log", tf.get default graph ()) 
writer.close() 


图 9-3 中 显示 了 改进 后 的 可 视 化 效果 图 。 从 图 中 可 以 看 到 ， 图 9-2 中 很 多 的 节操 都 被 
缩 略 到 了 图 9-3 中 的 input2 节点 。 这 样 TensorFlow 程序 中 定义 的 加 法 运算 被 清晰 地 展示 了 
出 来 。 需 要 查看 input2 节点 中 具体 包含 了 哪些 运算 时 ， 可 以 将 鼠标 移动 到 input2 节点 ， 并 
点 开 右 上 角 的 加 号 “+””。 图 9-4 显示 了 展开 input2 节点 之 后 的 视图 。 


add 
npun OO- 一 人 人》 





ee nn 





ee 


图 9-3 ”改进 后 向 量 加 法 程序 TensorFlow 计算 图 的 可 视 化 效果 图 


Yensortoard ; EVIMTS MiSs AD ChAPHS HTODRAMS 二 二 nn a > 





i input2 


$4 ete us 
[> Wi Ng 全 ns 
1 Tc input2 ‘iadd 
random_uniformm—”.; 





图 9-4 展开 input2 节点 的 可 视 化 效果 图 


在 input2 的 展开 图 中 可 以 看 到 图 9-2 中 数据 初始 化 相关 的 操作 都 被 整理 到 了 一 起 。 下 
面 将 给 出 一 个 样 例 程序 来 展示 如 何 很 好 地 可 视 化 一 个 真实 的 神经 网 络 结构 图 。 本 节 将 继续 
采用 5.5 节 中 给 出 的 架构 ， 以 下 代码 给 出 了 改造 后 的 mnist_train.py 程序 。 


(D “+” 号 会 在 鼠标 移动 到 这 个 节点 时 显示 在 节点 的 右上 角 。 
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import tensorflow as tf 

from tensorflow.examples.tutorials.mnist import input data 

# mnist inference 中 定义 的 常量 和 前 向 传播 的 函数 不 需要 改变 ， 因 为 前 向 传播 已 经 通过 
# tf.variable scope 实现 了 计算 节点 按照 网 络 结构 的 划分 。 


import mnist inference 


INPUT NODE = 784 
OUTPUT NODE = 10 
LAYER1 NODE = 500 


def train (mnist): 
# 将 处 理 输入 数据 的 计算 都 放 在 名 字 为 “input” 的 命名 空间 下 。 
WwWEERREERameScopereanPEE ys): 
x = tf placeholderl : 
tf aclioatSZ ENones mnist inference.INPUT NODE], name="'x-input’') 
y ”= tf .placehoLlder'\( 
LEvfLoat32 7 [NOnerne miist inference .OULTPUTHNODE), 
name='y-cinput') 


regularizer = tf.contrib.layers.12 regularizer (REGULARAZTION RATE) 
y = mist inference. inference (xr regularizer) 
global steps=EtfaVarliablelt0, tralnable=Ealse) 


# 将 处 理 滑 动 平均 相关 的 计算 都 放 在 名 为 moving_average 的 命名 空间 下 。 
Wt het namesscCOope(amov INngsaverages): 
variable averages = tf.train.ExponentialMovingAverage ( 
MOVING AVERAGE DECAY, global step) 
variables averages op = variable averages.applyl! 
tf trainable varlables()) 


# 将 计算 损失 函数 相关 的 计算 都 放 在 名 为 loss_function 的 命名 空间 下 。 
with:tf.name scope'("1loss funetlions)s 
crosssentropy =:tf. nn.sparse sottmaxecross entropy :withvLlogits( 
VE 上 EGG LE 
Crosssentropysmean "==tf,YEeduUcCeRmean(erossent ropy) 
POSSe= CrOSS:enNntropYy meanst Ee add lst Ei get_ collection('losses')) 


# 将 定义 学 习 率 、 优 化 方法 以 及 每 一 纶 训 统 震 要 执行 的 操作 者 让 在 名 为 “train step” 
# 的 命名 空间 下 。 
with tf.name. scope ("train step"):: 
learning rate = ttstralneexponcenttaledecay\ 
LEARNING RATE BASE, 
giobal step, 
mnist.train.num examples / BATCH SIZE, 
LEARNING RATE DECAY., 
stalrcase=1True) 
train step = tf.train.GradientDescentOptimizer (learning rate)\ 
-minimize(loss, global step=global step) 
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with tf.control dependencies([train step, variables _ averageS _ Op]) : 
train op = tf.no op (name='train') 


# 使 用 和 5.5 节 中 一 样 的 方式 训练 神经 网 络 。 


# 将 当前 的 计算 图 输出 到 TensorBoard 日 志文 件 。 
writer = tf.train.SummaryWriter("/path/to/log", tf.get default graph()) 
writer.close() 


def main (argv=None): - 
mnist = input data.read data sets ("/tmp/data"，one hot=True) 
train (mnist) 


i NAMme lALNE a 

tfsappanurs() : 

相 比 5.5 节 中 给 出 的 mnist_train.py 程序 ， 上 面 程序 最 大 的 改变 就 是 将 完成 类 似 功能 也 
计算 放 到 了 由 tt.name_scope 函数 生成 的 上 下 文 管理 器 中 。 这 样 TensorBoard 可 以 将 这 些 市 
点 有 效 地 合并 ,从 而 突出 神经 网 络 的 整体 结构 。 因 为 在 mnist_inferenece.py 程序 中 已 经 使 用 
了 给.variable_scope 来 管理 变量 的 命名 空间 ， 所 以 这 里 不 需要 再 做 调整 。 图 9-5 展示 了 新 的 
MNIST 程序 的 TensorFlow 计算 图 可 视 化 得 到 的 效果 图 。 


jayer1 





图 9-5 改进 后 的 MNIST 样 例 程序 TensorFlow 计算 图 可 视 化 效果 图 


从 图 9-5 中 可 以 看 到 ，TensorBoard 可 视 化 效果 图 很 好 的 展示 了 整个 神经 网 络 的 结构 。 
在 图 9-5 中 ，input 节点 代表 了 训练 神经 网 络 需 要 的 输入 数据 ， 这 些 输入 数据 会 提供 给 神经 
网 络 的 第 一 层 layerl 。 然 后 神经 网 络 第 一 层 layerl 的 结果 会 被 传 到 第 二 层 layer2, 进 过 layer2 
的 计算 得 到 前 向 传播 的 结果 。loss_function 节点 表示 计算 损失 函数 的 过 程 , 这 个 过 程 既 依赖 
于 前 向 传播 的 结果 来 计算 交叉 焙 (layer2 到 loss function 的 边 )， 又 依赖 于 每 一 层 中 所 定义 
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的 变量 来 计算 L2 正则 化 损失 (layerl 和 layer2 到 loss_function 的 边 )。loss function 的 计算 
结果 会 提供 给 神经 网 络 的 优化 过 程 ， 也 就 是 图 中 train_step 所 代表 的 节点 。 综 上 所 述 ， 通 过 
TensorBoard 可 视 化 得 到 的 效果 图 可 以 对 整个 神经 网 络 的 网 络 结构 有 一 个 大 致 了 解 。 

在 图 9-5 中 可 以 发 现 节 点 之 间 有 两 种 不 同 的 边 。 一 种 边 是 通过 实 线 表示 的 ， 这 种 边 刻 
画 了 数据 传输 ， 边 上 箭头 方 回 表达 了 数据 传输 的 方 同 。 比 如 layerl 和 layer2 之 间 的 边 表 示 
了 layerl 的 输出 将 会 作为 layer2 的 输入 。 有 些 边 上 的 箭头 是 双 同 的 ， 比 如 节点 Variable 和 
train step 之 间 的 边 。 这 表明 train step 会 修改 Variable 的 状态 ,在 这 里 也 就 是 表明 训练 过 程 
会 修改 记录 训练 迭代 轮 数 的 变量 。 

TensorBoard 可 视 化 效果 图 的 边 上 还 标注 了 张 量 的 维度 信息 。 图 9-6 放大 了 可 视 化 得 到 
的 效果 图 ， 从 图 中 可 以 看 出 ， 节 点 input 和 layerl 之 间 传 输 的 张 量 的 维度 为 100x784。 这 说 
明了 训练 时 提供 的 batch 大 小 为 100， 输 入 层 记 点 的 个 数 为 784。 妆 两 个 节 点 之 间 传 输 的 张 
量 多 于 1 个 时 , 可视化 效果 图 上 将 只 显示 张 量 的 个 数 。 效 果 图 上 边 的 粗细 表示 的 是 两 个 节点 
之 间 传 输 的 标量 维度 的 总 大 小 ， 而 不 是 传输 的 标量 个 数 。 比 如 layer2 和 loss function 之 间 虽 
然 传输 了 两 个 张 量 ， 但 其 维度 都 比较 小 ， 所 以 这 条 边 比 layerl 和 layer2 之 间 的 边 还 要 细 。 
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图 9-6 ”TensorBoard 可 视 化 效果 图 中 边 上 信息 


TensorBoard 可 视 化 效果 图 上 另外 一 种 边 是 通过 虚线 表示 的 ， 比 如 图 9-5 中 所 示 的 
moving average 和 train_step 之 间 的 边 。 虚 边 表达 了 计算 之 间 的 依赖 关系 ， 比 如 在 程序 中 ， 
通过 tf.control dependencies 函数 指定 了 更 新 参数 请 动 平 均值 的 操作 和 通过 反 辐 传播 更 新 变 
量 的 操作 需要 同时 进行 ， 于 是 moving average 与 train_ step 之 间 存 在 一 条 虚 边 。 

除了 手动 的 通过 TensorFlow 中 的 命名 空间 来 调整 TensorBoard 的 可 视 化 效果 图 ， 
TensorBoard 也 会 智能 地 调整 可 视 化 效果 图 上 的 节点 。TensorFlow 中 部 分 计算 节点 会 有 比较 


Q 注意 这 里 “Variable” 表 示 名 称 为 Variable 的 变量 ， 而 不 是 所 有 神经 网 络 中 的 参数 。 在 样 例 程 序 中 ， 名 
称 为 Variable 的 变量 是 存储 训练 迭代 轮 数 的 变量 。 
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多 的 依赖 关系 ， 如 果 全 部 画 在 一 张 图 上 会 使 可 视 化 得 到 的 效果 图 非常 拥挤 。 于 是 
TensorBoard 将 TensorFlow 计算 图 分 成 了 主 图 (Main Graph) 和 辅助 图 (Auxiliary nodes) 
两 个 部 分 来 呈现 。 在 图 9-5 中 ， 左 侧 展 示 的 是 计算 图 的 主要 部 分 ， 也 就 是 主 图 ; 右 侧 展 示 
的 是 一 些 单独 列 出 来 的 节点 ， 也 就 是 辅助 图 。TensorBoard 会 自动 将 连接 比较 多 的 市 点 放 在 
辅助 图 中 ， 使 得 主 图 的 结构 更 加 清晰 。 

除了 自动 的 方式 ，TensorBoard 也 支持 手工 的 方式 来 调整 可 视 化 结果 。 如 图 9-7 所 示 ， 
右键 单 击 可 视 化 效果 图 上 的 节点 会 弹出 一 个 选项 ， 这 个 选项 可 以 将 节点 加 入 主 图 或 者 从 主 
图 中 删除 。 左 键 选择 一 个 节点 并 点 击 信息 框 下 部 的 选项 也 可 以 完成 类 似 的 功能 。 图 9-8 展 
示 了 将 train _step 节点 从 主 图 中 移出 后 的 效果 ， 图 9-9 展示 了 将 Variable 节点 移入 主 图 后 的 
效果 。 注意 TensorBoard 不 会 保存 用 户 对 计算 图 可 视 化 结果 的 手工 修改 , 页 面 刷 新 之 后 计算 
图 可 视 化 结果 又 会 回 到 最 初 的 样子 。 
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(b) 手工 将 TensorFlow 计算 图 可 视 化 效果 图 中 节点 加 入 主 图 
图 9-7 手工 将 TensorFlow 计算 图 可 视 化 效果 图 中 节点 加 入 /移出 主 图 
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图 9-9 将 Variable 节点 移入 主 图 后 的 效果 图 


9.2.2 ”节点 信息 


除了 展示 TensorFlow 计算 图 的 结构 ，TensorBoard 还 可 以 展示 TensorFlow 计算 图 上 每 
个 节点 的 基本 信息 以 及 运行 时 消耗 的 时 间 和 空间 。 本 小 节 将 进一步 讲解 如 何 通 过 
TensorBoard 展现 TensorFlow 计算 图 节点 上 的 这 些 信息 。TensorFlow 计算 节点 的 运行 时 间 
都 是 非常 有 用 的 信息 ， 它 可 以 帮助 更 加 有 针对 性 地 优化 TensorFlow 程序 ， 使 得 整个 程序 的 
运行 速度 更 快 。 使 用 TensorBoard 可 以 非常 直观 地 展现 所 有 TensorFlow 计算 节点 在 某 一 次 
运行 时 所 消耗 的 时 间 和 内 存 。 将 以 下 代码 加 入 9.2.1 小 节 中 修改 后 的 mnist train.py 神经 网 
络 训练 部 分 ， 就 可 以 将 不 同 迭 代 轮 数 时 每 一 个 TensorFlow 计算 节点 的 运行 时 间 和 消耗 的 内 
存 写 入 TensorBoard 的 日 志文 件 中 。 


with tf.Session() as sess : 
王八 二 由 工 七 工 坪 上 二 Ze 人 寺 上 27aclapbplLes ocean (0 
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for i in range (TRAINING STEPS): 
XS VSMMmiSts train nexbt Dach (BATeH: .STLE) 


# 每 1000 轮 记 录 一 次 运行 状态 。 
TED QO0Ee= 0 
# 配置 运行 时 需要 记录 的 信息 。 
run _ options = tf.RuNnOptions'( 
trace level=tf.RunOptions.FULL TRACE) 
# 运行 时 记录 运行 信息 的 proto。 
run metadata = tf.RunMetadata() 
# 将 配置 信息 和 记录 运行 信息 的 proto 传 入 运行 的 过 程 ， 从 而 记录 运行 时 每 一 个 
# 节点 的 时 间 、 空 间 开 销 信息 。 
aloOsSs valuer Step = SSeS EU 
train oprelOossy global steplysteced dict={X XS y :YS}; 
options=run options, run metadata=run metadata) 
# 将 区 点 在 运行 时 的 信息 与 入 日 志文 件 。 
train writersadd run metadatal(run metadata, steps03d ,1) 
print ("After %d training step(s), loss on training batch " 
Mo (SCD Loss value)) 
else: 
SLOSS ValUerastep.s. Ssss runl 
trainopi :lOossn global :steplr teed dict={X" XB se Ye ys}) 


运行 以 上 程序 ， 并 使 用 这 个 程序 输出 的 日 志 启 动 TensorBoard， 就 可 以 可 视 化 每 个 
TensorFlow 计算 节点 在 某 一 次 运行 时 所 消耗 的 时 间 和 空间 了 。 进 入 GRAPHS 栏 后 ， 需 要 先 
选择 一 次 运行 来 得 看 。 如 图 9-10(a) 所 示 ， 点 击 页 面 左 侧 的 Session runs 选项 会 出 现 一 个 下 
拉 单 ， 在 这 个 下 拉 单 中 会 出 现 所 有 通过 train writer.add run metadata 函数 记录 的 运行 数据 。 
如 图 9-10(b) 所 示 ， 选 择 一 次 运行 后 ，TensorBoard 左 侧 的 Color 栏 中 将 会 新 出 现 Compute 
time 和 Memory 这 两 个 选项 。 
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在 Color 栏 中 选择 Compute time 可 以 看 到 在 这 次 运行 中 每 个 TensorFlow 计算 节点 的 运 
行 时间 。 类 似 的 ， 选 择 Memory 可 以 看 到 这 次 运行 中 每 个 TensorFlow 计算 节点 所 消耗 的 内 
存 。 图 9-11 展示 了 在 第 10000 轮 和 迭代 时 , 不同 TensorFlow 计算 节点 时 间 消 耗 的 可 视 化 效果 
图 。 图 中 颜色 越 深 的 节点 表示 时 间 消 耗 越 大 。 从 图 9-11 中 可 以 看 出 ， 代 表 训 练 神经 网 络 的 
train step 节点 消耗 的 时 间 是 最 多 的 。 通 过 对 每 一 个 计算 节点 消耗 时 间 的 可 视 化 ， 可 以 很 容 
易 地 找到 TensorFlow 计算 图 上 的 性 能 瓶颈 , 这 大 大 方便 了 算法 优化 的 工作 。 在 性 能 调 优 时 ， 
一 般 会 选择 迭代 轮 数 较 大 时 的 数据 〈 比 如 图 9-11 中 第 10000 轮 迭 代 时 的 数据 ) 作为 不 同 计 
算 节 点 时 间 / 空 间 消耗 的 标准 ， 因 为 这 样 可 以 减少 TensorFlow 初始 化 对 性 能 的 影响 。 
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图 9-11 第 10000 轮 迭 代 时 不 同 TensorFlow 计算 节点 时 间 消 耗 的 可 视 化 效果 图 


在 TensorBoard 界面 左 侧 的 Color 栏 中 ， 除 了 Compute time 和 Memory， 还 有 Structure 
和 Device 两 个 选项 。 在 图 9-3 到 图 9-9 中 ， 展 示 的 可 视 化 效果 图 都 是 使 用 默认 的 Structure 
选项 。 在 这 个 视图 中 ， 灰 色 的 节点 表示 没有 其 他 市 点 和 它 拥 有 相同 结构 。 如 果 有 两 个 节点 
的 结构 相同 ， 那 么 它们 会 被 涂 上 相同 的 颜色 。 图 9-12 展示 了 一 个 拥有 相同 结构 节点 的 卷 积 
神经 网 络 可 视 化 得 到 的 效果 图 。 在 图 9-12 中 ， 两 个 卷 积 层 的 结构 是 一 样 的 ， 所 以 他 们 都 被 
涂 上 了 相同 的 颜色 。 最后，Color 栏 还 可 以 选择 Device 选项 ,这 个 选项 可 以 根据 TensorFlow 
计算 节点 运行 的 机 器 给 可 视 化 效果 图 上 的 节点 染色 。 在 使 用 GPU 时 , 可 以 通过 这 种 方式 直 
观 地 看 到 哪些 计算 节点 被 放 到 了 GPU 上 。 图 9-13 给 出 了 一 个 使 用 了 GPU 的 TensorFlow 
计算 图 的 可 视 化 结果 。 图 9-13 中 深 灰 色 的 节点 表示 对 应 的 计算 放 在 了 GPU 上 , 浅 灰 色 的 
节点 表示 对 应 的 计算 放 在 了 CPU 上 。 具 体 如 何 使 用 GPU 将 在 第 10 章 介绍 。 
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图 9-13 使 用 了 GPU 的 TensorFlow 计算 图 的 可 视 化 结果 


当 点 击 TensorBoard 可 视 化 效果 图 中 的 节点 时 ,界面 的 右上 角 会 弹出 一 个 信息 卡片 显示 
这 个 节点 的 基本 信息 。 如 图 9-14 所 示 ， 当 点 击 的 节点 为 一 个 命名 空间 时 ，TensorBoard 展 
示 的 信 且 有 这 个 命名 空间 内 所 有 计算 节点 的 输入 、 输 出 以 及 依赖 和 关系。 虽然 属性 
(Attriubtes) 也 会 展示 在 卡片 中 , 但 是 在 代表 命名 空间 的 属性 下 不 会 有 任何 内 容 。 当 Session 
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runs 选择 了 未 一 次 运行 时 ， 点 的 信息 卡片 上 也 会 出 现 这 个 节点 运行 时 所 消耗 的 时 间 和 内 
存 等 信息 。 
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图 9-14 TensorFlow 命名 空间 在 TensorBoard 可 视 化 效果 图 上 的 信息 卡片 


当 点 击 的 TensorBoard 可 视 化 效果 图 上 的 节点 对 应 一 个 TensorFlow 计算 节点 
TensorBoard 也 会 展示 类 似 的 信息 。 图 9-15 展示 了 一 个 TensorFlow 计算 节点 所 对 应 人 息 
卡片 。 在 TensorBoard 页 面 中 ， 空 心 的 小 椭圆 对 应 了 TensorFlow 计算 图 上 的 一 个 计算 节点 ， 
而 一 个 矩形 对 应 了 计算 图 上 的 一 个 命名 空间 。TensorFlow 计算 节点 所 对 应 的 信息 卡片 中 的 
内 容 和 命名 空间 信息 卡片 相似 ， 只 是 TensorBoard 可 以 将 TensorFlow 计算 节点 的 属性 也 展 
示 出 来 。 例 如 在 图 9-15 中 ， 属 性 栏 下 显示 了 选中 的 计算 节点 是 在 什么 设备 上 运行 的 ， 以 及 
运行 这 个 计算 时 的 两 个 参数 。 
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图 9-15 ”TensorFlow 计算 节点 在 TensorBoard 可 视 化 效果 图 上 的 信息 卡片 
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9.3 ”监控 指标 可 视 化 


在 9.2 节 中 着 重 介 绍 了 通过 TensorBoard 的 GRAPHS 栏 可 视 化 TensorFlow 计算 图 的 结 
构 以 及 在 计算 图 上 的 信息 。TensorBoard 除了 可 以 可 视 化 TensorFlow 的 计算 图 ， 还 可 以 可 
视 化 TensorFlow 程序 运行 过 程 中 各 种 有 助 于 了 解 程序 运行 状态 的 监控 指标 。 在 本 中 将 介 
绍 如 何 利 用 TensorBoard 中 其 他 栏目 可 视 化 这 些 监控 指标 。 除 了 GRAPHS 栏 ，TensorBoard 
界面 中 还 提供 了 EVENTS、IMAGES、AUDIO 和 HISTOGRAMS 四 个 栏目 来 可 视 化 其 他 的 
监控 指标 。 下 面 的 程序 展示 了 如 何 将 TensorFlow 程序 运行 时 的 信息 输出 到 TensorBoard 日 
志文 件 中 。 


import tensorflow as tf 
from tensorflow.examples.tutorials.mnist import input data 


SUMMARY DIR = "/path/to/log" 
BATCH SIZE = 100 
TRAIN STEPS = 30000 


# 生成 变量 监控 信息 并 定义 生成 监控 信息 日 志 的 操作 。 其 中 var 给 出 了 需要 记录 的 张 量 ，name 给 
# 出 了 在 可 视 化 结果 中 显示 的 图 表 名 称 ， 这 个 名 称 一 般 与 变量 名 一 致 。 
def variable summaries (var, name): 
# 将 生成 监控 信息 的 操作 放 到 同一 个 命名 空间 下 。 
with tf.name scope('summaries'): 
# 通过 tf.histogram summary 函数 记录 张 量 中 元 素 的 取 值 分 布 。 对 于 给 出 的 图 表 名 称 
# 和 张 量 ，tf.histogram summary 函数 会 生成 一 个 Summary protocol buffer。 
# 将 Summary 写 入 TensorBoard 日 志文 件 后 ， 可 以 在 HISTOGRAMS 栏 下 看 到 对 应 名 
# 称 的 图 表 。 图 9-20 给 出 了 一 个 可 视 化 结果 效果 图 。 和 TensorFlow 中 其 他 操作 类 似 ， 
# tf.histogram summary 函数 不 会 立刻 被 执行 ， 只 有 当 sess .run 函数 明确 调用 这 
# 个 操作 时 ，TensorFlow 才 会 真正 生成 并 输出 Summary protocol buffer。 
tf.histogram summary (name, var) 


# 计算 变量 的 平均 值 ， 并 定义 生成 平均 值 信息 日 志 的 操作 。 记 录 变 量 平均 值 信 息 的 日 志 标 签名 
# 为 'mean/' + name， 其 中 mean 为 命名 空间 ，/ 是 命名 空间 的 分 隅 符 。 从 图 .9-17 

# 中 可 以 看 到 , 在 相同 命名 空间 中 的 监控 指标 会 被 整合 到 同一 栏 中 。name 则 给 出 了 当前 监 
# 控 指 标 属于 哪 一 个 变量 。 

mean =>tf.reduce mean (var) 

tf.scalar summary('mean/' + name, mean) 

# 计算 变量 的 标准 差 ， 并 定义 生成 其 日 志 的 操作 。 

stddev = tf.sqrt (tf.reduce mean (tft.-sduare (var ~- mean))) 

tf.scalar summary('stddev/' + name, stddeyv) 


# 生成 一 层 全 链接 层 神 经 网 络 。 
def nn layer (input tensor, input dim, output dim, 
laver namey act=tf nn relu): 
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# 将 同一 层 人 神经 网 络 放 在 一 个 统一 的 命名 空间 下 。 
with tf.name scope (layer name): 
# 声明 神经 网 络 边 上 的 权重 ， 并 调用 生成 权重 监控 信息 日 志 的 函数 。 
with tf.name scope('weights'): 
weights = tf.Variable (tf.truncated normal ( 
[input dim, output dim], stddev=0.1)) 
variable summaries (weights, layer name + '/weights'!) 


# 声明 神经 网 络 的 偏 置 项 ， 并 调用 生成 偏 置 项 监控 信息 日 志 的 函数 。 

with tf.name scope('biases'): 
biases = tf.Variable (tf.constant (0.0, shape=[output dim])) 
variable summaries (biases, layer name + '/biases') 


with tf.name scope('Wx plus b’): 
preactivate = tf.matmul (input tensor, weights) + biases 
# 记录 神经 网 络 输出 节点 在 经 过 激活 函数 之 前 的 分 布 。 
tf.histogram summary (layer name + '/pre activations', 
preactivate) 
“activations = act (preactivate, name='activation') 


# 记录 神经 网 络 输出 节点 在 经 过 激活 函数 之 后 的 分 布 。 在 图 9-20 中 ， 对 于 layerl， 因 
# 为 使 用 了 ReLU 函数 作为 激活 函数 ， 所 以 所 有 小 于 0 的 值 都 被 设 为 了 0。 于 是 在 激活 后 
# 的 layerl/activations 图 上 所 有 的 值 都 是 大 于 0 的 。 而 对 于 layer2， 因 为 没有 使 
# 用 激活 函数 ， 所 以 layer2/activations 和 layer2/pre activations 一 样 。 
tf.histogram summary (layer name + '/activations', activations) 
return activations 


Ge 和 ma 
mnist = input data.read data sets("/tmp/data", one hot=True) 
# 定义 输入 。 
with tf.name scope('input"): 
x = tf.placeholder (tf.float32, [None, 784], name=’'x-input') 
Y = tf.placeholder (tf.float32, [None, 10], name='y-input') 


# 将 输入 回 量 还 原 成 图 片 的 像素 矩阵 ， 并 通过 tf.image_summary 函数 定义 将 当前 的 图 片 信 
# 轧 写 入 日 志 的 操作 。 
with tf.name scope('input reshape'): 

image. shaped input = tf.reshape (x; [=1; 28; 28,°1]) 

tf.image summary('input', image shaped input, 10) 


hiddent = nn layer (x 17184, 500, "layer1’) 
y= nn layer(hiddenl, 500, 10, 'lJayer2', act=tf.identity) 


# 计算 交叉 和 并 定义 生成 交叉 箭 监控 日 志 的 操作 。 


with tf.name scope('cross entropy'): 
CEOSS entropystf- reduce mean 
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tf.nn.softmax cross entropy with Loglts(Yr yy )) 
tf.scalar summary('cross entropy', cross “entropy) 


with tf=snamnesscope( train!): 
train step = tf.train.AdamOptimizer (0.001) .minimize(cross entropy) 


# 计算 模型 在 当前 给 定数 据 上 的 正确 率 , 并 定义 生成 正确 率 监控 日 志 的 操作 。 如 果 在 sess .run 
# 时 给 定 的 数据 是 训练 batch， 那 么 得 到 的 正确 率 就 是 在 这 个 训练 batch 上 的 正确 率 ; 如果 
# 给 定 的 数据 为 验证 或 者 测试 数据 ， 那 么 得 到 的 正确 率 就 是 在 当前 模型 在 验证 或 者 测试 数据 上 
# 的 正确 率 。 
with~ tfsnamesscope'('accuracy).: 
Withatfname SCope:( COrrect prediction): 
correct prediction = tf.equal(tf.,argmax (ly, 1)r tf.argmax(y , 1)) 
withattanamne scope (accuracy 
accuracy = tf,reducesmean'\ 
tfscast (eorrectspredaoCrontE FLOoatds)) 
tf.scalar summary('accuracy', accuracy) 


# 和 TensorFlow 中 其 他 操作 类 似 ，tf.scalar summary、tf.histogram summary 

# 和 tf.image summary 函数 都 不 会 立即 执行 ， 需 要 通过 sess .zun 来 明确 调用 这 些 函 数 。 
# 因为 程序 中 定义 的 写 日 志 操 作 比 较 多 ， 一 一 调用 非常 抹 烦 ， 所 以 TensorFlow 提供 了 

# tf.merge all summaries 函数 来 整理 所 有 的 日 志 生成 操作 。 在 TensorFlow 程序 执行 
# 的 过 程 中 只 需要 运行 这 个 操作 就 可 以 将 代码 中 定义 的 所 有 日 志 生 成 操作 执行 一 次 ， 从 而 将 所 
= 有 日 志 写 入 文件 。 


merged ==tf:merges all} “summaries bl) 


with tf.Session() as sess: 
# 初始 化 写 日 志 的 writer， 并 将 当前 TensorFlow 计算 图 写 入 日 志 。 
summary writer = tf.train.SummaryWriter (SUMMARY DIR, sess.graph) 
tfsinitiallize all variables(). run() 


for i in range (TRAIN STEPS): 
xs Ys = mnist.train.next batch (BATCH SIZE) . 
# 运行 训练 步骤 以 及 所 有 的 日 志 生成 操作 ， 得 到 这 次 运行 的 日 志 。 
summary, = sess.run([merged, train _step], 
feedsaLot= 人 {x SET VS 
# 将 所 有 日 志 写 入 文件 ，TensorBoard 程序 就 可 以 拿 到 这 次 运行 所 对 应 的 运行 信息 。 


summary writer.add summary (summary, i) 
summary writer.close() 


TEJIAame eo na ET 汪 信 人 
CFAaDpD Luan 


从 上 面 的 程序 可 以 看 出 ， 除 了 GRAPHS 之 外 ，Tensorboard 中 的 每 一 栏 对 应 了 
TensorFlow 中 一 种 日 志 生 成 函数 ， 表 9-1 总 结 了 这 个 对 应 关系。 
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表 9-1 TensorFlow 日 志 生 成 函数 与 TensorBoard 界面 栏 对 应 关系 。 


TensorFlow 日 志 生 成 函数 | TensorBoard 界面 术 


tfscalar summary EVENTS TensorFlow 中 标量 (scalar) 监控 数据 随 着 迭代 进行 的 变化 趋势 。 图 9-18 


中 展示 了 当前 模型 在 训练 bacth 上 的 正确 率 随 着 迭代 进行 的 变化 趋势 。 
tfimage _ summary IMAGES TensorFlow 中 使 用 的 图 片 数据 .这 一 栏 一 般 用 于 可 视 化 当前 使 用 的 训练 
i /测试 图 片 。 图 9-19 中 展示 了 例 程序 在 最 后 一 轮训 练 时 使 用 的 图 片 。 
tf.histogram_summary HISTOGRAMS TensorFlow 中 张 量 分 布 监控 数据 随 着 迭代 轮 数 的 变化 趋势 。 图 9-20 中 
sd un 潮 展示 了 神经 网 络 参 数 取 值 分 布 随 着 迭代 进行 的 变化 趋势 。 
运行 上 面 的 样 例 程序 并 使 用 9.1 节 中 介绍 的 方式 启动 TensorBoard， 可 以 看 到 如 图 9-16 
所 示 的 界面 。 在 这 个 页 面 上 有 4 组 不 同 的 监控 指标 ， 这 些 指 标 都 是 样 例 程序 中 通过 
tf.scalar_summary 函数 生成 的 。 和 变量 的 命名 空间 类 似 ，TensorBoard 也 会 根据 监控 指标 的 
名 称 进行 分 组 。 从 图 9-17 中 可 以 看 到 ， 名 称 为 mean 的 栏目 下 有 4 组 不 同 的 监控 指标 。 这 
4 个 不 同 的 指标 都 以 mean 开头 ， 并 通过 和 斜 线 “/” 划 分 不 同 的 命名 空间 。 不 过 和 TensorFlow 
计算 图 可 视 化 结果 不 同 的 是 ，EVENTS 栏 只 会 对 最 高 层 的 命名 空间 进行 整合 ， 单 击 展开 后 
将 看 到 该 命名 空间 下 的 所 有 监控 指标 。 
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图 9-17 展开 标量 监控 页 面 中 的 监控 内 容 后 得 到 的 页 面 
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在 每 一 个 监控 指标 的 左下 角 有 一 个 小 方 框 < 2 史 单 击 这 个 方 框 可 以 得 到 放大 后 的 图 片 。 
放大 后 的 效果 如 图 9-18 所 示 。 再 单 击 一 次 这 个 小 方 框 可 以 将 放大 后 的 图 表 缩小 。 在 训练 神 
经 网 络 时 ， 通 过 TensorBoard 监控 神经 网 络 中 变量 取 值 的 变化 、 模 型 在 训练 batch 上 的 损失 
函数 大 小 以 及 学 习 率 的 变化 等 信息 可 以 更 加 方便 地 掌握 模型 的 训练 情况 。 





图 9-18 展开 茶 一 项 监控 标量 时 的 放大 图 


图 9-19 展示 了 通过 TensorBoard 可 视 化 当前 轮训 练 使 用 的 图 像 信息 。 通 过 这 个 界面 可 
以 大 致 看 出 数据 随机 打 乱 的 效果 。 因 为 TensorFlow 程序 和 TensorBoard 可 视 化 界面 可 以 同 
时 运行 ， 所 以 从 TensorBoard 上 可 以 实时 看 到 TensorFlow 程序 中 最 新 使 用 的 训练 或 者 测试 
图 像 。 





图 9-19 通过 TensorBoard 可 视 化 训练 图 像 
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TensorBoard 最 后 一 栏 提 供 了 对 张 量 取 值 分 布 的 可 视 化 界面 。 通 过 这 个 界面 ， 可 以 直观 
地 观察 到 不 同 层 神经 网 络 中 参数 的 取 值 变化 。 
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图 9-20 通过 TensorBoard 可 视 化 张 量 取 值 分 布 效 果 图 
= 
小 结 


在 本 章 中 介绍 了 TensorFlow 的 可 视 化 工具 TensorBoard。TensorBoard 是 TensorFlow 自 
种 的 工具 ,不 需要 额外 的 安装 过 程 。 虽 然 TensorBoard 和 TensorFlow 运行 在 不 同 的 进程 中 ， 
但 是 TensorBoard 会 实时 读 取 TensorFlow 程序 输出 的 日 志文 件 从 而 获取 最 新 的 TensorFlow 
程序 运行 状态 。 通 过 TensorBoard， 一 方面 可 以 更 好 地 了 解 TensorFlow 计算 图 的 结构 以 及 
每 个 TensorFlow 计算 节点 在 运行 时 的 时 间 、 内 存 消耗 。 男 一 方面 也 可 以 通过 TensorBoard 
可 视 化 神经 网 络 模型 训练 过 程 中 各 种 指标 的 变化 趋势 ， 直 观 地 了 解 神 经 网 络 的 训练 情况 。 
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在 前 面 的 章节 中 介绍 了 使 用 TensorFlow 实现 各 种 深度 学 习 的 算法 。 然 而 要 将 深度 学 习 
应 用 到 实际 问题 中 ， 一 个 非常 大 的 问题 在 于 训练 深度 学 习 模 型 需要 的 计算 量 太 大 。 比 如 要 
将 第 6 章 中 介绍 的 Inception-v3 模型 在 单机 上 训练 到 78% 的 正确 率 需 要 将 近 半 年 的 时 间 ”， 
这 样 的 训练 速度 是 完全 无 法 应 用 到 实际 生产 中 的 。 为 了 加 速 训练 过 程 ， 本 章 将 介绍 如 何 通 
过 TensorFlow 利用 GPU 或 /和 分 布 式 计算 进行 模型 训练 。 

首先 ， 在 10.1 节 中 将 介绍 如 何在 TensorFlow 中 使 用 单个 GPU 进行 计算 加 速 ， 也 将 介 
绍 生 成 TensorFlow 会 话 〈tf.Session) 时 的 一 些 常 用 参数 。 通 过 这 些 参数 可 以 使 调试 更 加 方 
便 而 且 程 序 的 可 扩展 性 更 好 。 然 而 ， 在 很 多 情况 下 ， 单 个 GPU 的 加 速效 率 无 法 满足 训练 大 
型 深度 学 习 模 型 的 计算 量 需 求 ， 这 时 将 需要 利用 更 多 的 计算 资源 。 为 了 同时 利用 多 个 GPU 
或 者 多 台 机 器 ，10.2 节 中 将 介绍 训练 深度 学 习 模 型 的 并 行 方式 。 然 后 ，10.3 市 将 介绍 如 何 
在 一 台 机 器 的 多 个 GPU 上 并 行 化 地 训练 深度 学 习 模 型 。 在 这 一 节 中 也 将 给 出 具体 的 
TensorFlow 样 例 程序 来 使 用 多 GPU 训练 模型 ， 并 比较 并 行 化 效率 提升 的 比率 。 最 后 在 10.4 
节 中 将 介绍 分 布 式 TensorFlow， 以 及 如 何 通 过 分 布 式 TensorFlow 训练 深度 学 习 模型 。 在 这 
一 节 中 将 给 出 具体 的 TensorFlow 样 例 程 序 来 实现 不 同 的 分 布 式 深度 学 习 训练 模式 。 虽 然 
TensorFlow 可 以 支持 分 布 式 深度 学 习 模 型 训练 ， 但 是 它 并 不 提供 集群 创建 、 管 理 等 功能 。 
为 了 更 方便 地 使 用 分 布 式 TensorFlow，10.4 节 中 将 介绍 才 云 科技 基于 Kubermetes 容器 云 平 
台 搭 建 的 分 布 式 TensorFlow 系统 。 


10.1 TensorFlow 使 用 GPU 
TensorFlow 程序 可 以 通过 tf.device 函数 来 指定 运行 每 一 个 操作 的 设备 ， 这 个 设备 可 以 


@ 数字 出 自 谷歌 官方 技术 博客 https://research.googleblog.com/2016/04/announcing-tensorflow-08-now-with.html。 
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是 本 地 的 CPU 或 者 GPU， 也 可 以 是 某 一 台 远 程 的 服务 器 。 但 在 本 节 中 只 关心 本 地 的 设备 。 
TensorFlow 会 给 每 一 个 可 用 的 设备 一 个 名 称 ，tf.device 函数 可 以 通过 设备 的 名 称 来 指定 执 
行 运算 的 设备 。 比 如 CPU 在 TensorFlow 中 的 名 称 为 /cpu:0。 在 默认 情况 下 ， 即 使 机 器 有 多 
个 CPU，TensorFlow 也 不 会 区 分 它们 ， 所 有 的 CPU 都 使 用 /cpu:0 作为 名 称 。 而 一 台 机 器 上 
不 同 GPU 的 名 称 是 不 同 的 , 第 nn 个 GPU 在 TensorFlow 中 的 名 称 为 /gpuin。 比 如 第 一 个 GPU 
的 名 称 为 /gpu:0， 第 二 个 GPU 名 称 为 /gpu:1， 以 此 类 推 。 

TensorFlow 提供 了 一 个 快捷 的 方式 来 查看 运行 每 一 个 运算 的 设备 。 在 生成 会 话 时 ， 可 
以 通过 设置 log_device_placement 参数 来 打印 运行 每 一 个 运算 的 设备 。 下面 的 程序 展示 了 如 
何 使 用 log device placement 这 个 参数 。 


import tensorflow as tf 


=tfAConstant ell 0ns2 0 3 0Snapesldl name=Y.a) 

= tf.constant([1.0, 2.0, 3.0], shape=[3], name='b') 

=a+Db 

# 通过 log device placement 参数 来 输出 运行 每 一 个 运算 的 设备 。 

sess = tf.Session(config=tf.ConfigProto (log device placement=True)) 


(rT 


print sess.run\(c) 


在 没有 GPU 的 机 器 上 运行 以 上 代码 可 以 得 到 以 下 输出 : 


Device mapping: no known devices. 


add: /job:localhost/replica:0/task:0/cpu:0 
b: /job:localhost/replica:0/task:0/cpu:0 
a: /job:localhost/replica:0/task:0/cpu:0 

[2 

1 了 


在 以 上 代码 中 ，TensorFlow 程序 生成 会 话 时 加 入 了 参数 log_device_placement=True， 
所 以 程序 会 将 运行 每 一 个 操作 的 设备 输出 到 屏 项 。 于 是 除了 可 以 看 到 最 后 的 计算 结果 之 外 ， 
还 可 以 看 到 类 似 “add: /job:localhost/replica:0/task:0/cpu:0” 这 样 的 输出 。 这 些 输 出 显示 了 执 
行 每 一 个 运算 的 设备 。 比 如 加 法 操作 add 是 通过 CPU 来 运行 的 ， 因 为 它 的 设备 名 称 中 包含 
了 /cpu:0。 

在 配置 好 GPU 环境 的 TensorFlow 中 “， 如 果 操 作 没有 明确 地 指定 运行 设备 ， 那 么 
TensorFlow 会 优先 选择 GPU。 比 如 将 以 上 代码 在 亚马逊 (Amazon Web Services, AWS) 的 
g2.8xlarge 实例 上 运行 时 ， 会 得 到 以 下 运行 结果 。 


QD 如 何 安装 支持 GPU 的 TensorFlow 环境 可 以 参考 第 2 章 。 
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Device mapping: 

/job:localhost/replica:0/task:0/gpu:0 -> device: 0, name: GRID K520, pci bus 
To O000:00R030 

/job:localhost/replica:0/task:0/gpu:l1 -> device: 1, name: GRID K520, pci bus 
TO00003002040 

/job:localhost/replica:0/task:0/gpu:2 -> qevice: 2, name: GRID K520, pci bus 
nO0 O00 O005a:0 

/job:localhost/replica:0/task:0/gpu:3 -> device: 3, name: GRID K520, pci bus 
1d.s000000: 06 二 0 


add: /job:localhost/replica:0/task:0/gpu:0 
b: /job:localhost/replica:0/task:0/gpu:0 
a: /job:localhost/replica:0/task:0/gpu:0 
上 


从 上 面 的 输出 可 以 看 到 在 配置 好 GPU 环境 的 TensorFlow 中 ，TensorFlow 会 日 动 优先 
将 运算 放置 在 GPU 上 .。 不过, 尽管 g2.8xlarge 实例 有 4 个 GPU, 在 默认 情况 下 ,TensorFlow 
只 会 将 运算 优先 放 到 /gpu:0 上 。 于 是 可 以 看 见 在 上 面 的 程序 中 ， 所 有 的 运算 都 被 放 在 了 
/gpu:0 上 。 te GPU 或 者 CPU 上 ， 就 需要 通过 tf.device 来 手 
工 指 定 。 下 面 的 程序 给 出 了 一 个 通过 tf.device 手工 指定 运行 设备 的 样 例 。 


ijmport tensorflow as tf 


# 通过 tf.device 将 运算 指定 到 特定 的 设备 上 。 
withatf device (Siu 0 
a = tf.constant([1.0, 2.0, 3.0], shape=[3], name="'a') 
b = tf.constant ([1.0, 2.0, 3.0], shape=[3], name='b'") 
withetf device(t /op Ls 
Ce= aD 


sess = tf.Session (config=tf. a 克 devicesplacement=True)) 
printeSsesss Pur(C) 


在 ANWS g2.8xlarge 实例 上 运行 上 述 代码 可 以 得 到 以 下 结果 : 

Device mapping: 

/job:localhost/replica:0/task:0/gpu:0 -> device: 0, name: GRID K520, pci bus 
id: 0000:00:03.0 
/job:localihost/replica:0/task:0/gpu:1 -> device: 1, name: GRID K520, pci bus 
id: 0000:00:04.0 

/job:localhost/replica:0/task:0/gpu:2 -> device: 2, name: GRID K520, pci bus 
Bl OO D0 
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/job:localhost/replica:0/task:0/gpu:3 -> device: 3, name: GRID K520, pci bus 
T00000500x:065:0 


add: /job:localhost/replica:0/task:0/gpu:1 
b: /job:localhost/replica:0/task:0/cpu:0 
a: /job:localhost/replica:0/task:0/cpu:0 
[2 


1 


在 以 上 代码 中 可 以 看 到 生成 常量 a 和 的 操作 被 加 载 到 了 CPU 上 , 而 加 法 操作 被 放 到 
了 第 二 不 GPU “/gpu:1” 上 。 在 TensorFlow 中 ， 不 是 所 有 的 操作 都 可 以 被 放 在 GPU 上 ， 如 
果 强 行将 无 法 放 在 GPU 上 的 操作 指定 到 GPU 上 ， 那 么 程序 将 会 报错 。 以 下 代码 给 出 了 一 
个 报错 的 样 例 。 


import tensorflow as tf 


# 在 CPU 上 运行 上 .Variable 
a_Cpu = tf.Variable (0 ; name=" a_ cpu") 


with tf.device('/gpu:0'): 
# 将 tf.Variable 强制 放 在 GPU 上 。 
a gpu = tf.Variable(0, name="a gpu") 


sess = tf.Session(config=tf.ConfigProto(log device placement=True)) 
SESSTLEUn(tet nitiallzeall variablbes() 


Ti 
运行 上 面 的 程序 将 会 报 出 以 下 错误 
tensorflow.python.framework.errors.InvalidArgumentError: Cannot assign a 
device* to node “a gpu’': Could. not. satisfy “expilicit device specification 
'/device:GPU:0' because no supported kernel for GPU devices is available. 
‘Colocation Debug Info: 

Colocation group had the following types and Gevices: 

Identity:sCPU 

ASSI GN CPU 

Variable: CPU 

-EENode: a gpu = Variable[lcontainer="", dtype=DT INT32, shape= [|], shared 
name=" _device="/device:GPU:0"] ()]] 


a a i 


不 同 版 本 的 TensorFlow 对 GPU 的 支持 不 一 样 ， 如 果 程 序 中 全 部 使 用 强制 指定 设备 的 
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方式 会 降低 程序 的 可 移植 性 。 在 TensorFlow 的 kemet 中 定义 了 哪些 操作 可 以 跑 在 GPU 上 。 


比如 可 以 在 variable ops.cc 程序 中 找到 以 下 定义 。 


# define REGISTER GPU KERNELS (type) 
REGISTER KERNEL BUILDER ( 


Name ("Variable") .Device (DEVICE GPU) .TypeConstraint<type> ("dtype"),\ 


VariableOp); 


TF CALL GPU NUMBER TYPES (REGISTER GPU KERNELS),; 


\ 
\ 


\ 


在 这 上 段 定义 中 可 以 看 到 GPU 只 在 部 分 数据 类 型 上 支持 给 Variable 操作 。 如 果 在 
TensorFlow 代码 库 中 搜索 调用 这 段 代 码 的 宏 TF CALL GPU NUMBER TYPES, 可 以 发 现 
在 GPU 上 ，tf.Variable 操作 只 支持 实数 型 (float16、float32 和 double) 的 参数 。 而 在 报错 


的 样 例 代码 中 给 定 的 参数 是 整数 型 的 ， 所 以 不 支持 在 GPU 上 运行 。 


为 避免 这 个 问题 ， 


TensorFlow 在 生成 会 话 时 可 以 指定 allow_ soft placement 参数 。 当 allow_soft placement 参 
数 设 置 为 True 时 ， 如 果 运 算 无 法 由 GPU 执行 ,那么 TensorFlow 会 自动 将 它 放 到 CPU 上 执 


行 。 以 下 代码 给 出 了 一 个 使 用 allow_soft_ placement 参数 的 样 例 。 
import tensorflow as tf 
ACPUSS tf.Variable(0, name="a CPpu") 


with tf.device('/gpu:0'): 
a_ gpu Te tf.Variable (0, name=Sa :gpus,) 


# 通过 allow soft placement 参数 自动 将 无 法 放 在 GPU 上 的 操作 放 回 cPU 上 。 


sess = tf.Session (config=tf.ConfjgProtol( 
allow soft placement=True, log device placement=True)) 
sess.run(tf.initialize all variables ()) 


111 
运行 上 面 这 段 程序 可 以 得 到 下 面 的 结果 : 

Device mapping: 
/job:localhost/replica:0/task:0/gpu:0 -> device: 0, name: 
Ts O00 ODS : 
/job:localhost/replica:0/task:0/gpu:l1 -> device: 1, name 
T0000a0.004a0 
/job:localhost/replica:0/task:0/gpu:2 -> device: 2, name: 
GQ :0.0.0.070.0305 80 
/job:localhost/replica:0/task:0/gpu:3 -> device: 3, name: 


GRID K520, pci bus 


OREDNS 和 DODCIeDus 


GRID K520, pci bus 


GRID K520, pci bus 


GD TensorFlow kemel 在 Github 的 https://github.com/tensorflow/tensorflow/tree/master/tensorflow/core/kernels 


目录 下 。 
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it000000306520 

asgpu2/obp:LocalhostAzePLica:0Atask:0/AcPpu:0 

a gpu/read: /job:localhost/replica:0/task:0/cpu:0 

a gpu/Assign: /job:localhost/replica:0/task:0/cpu:0 

init/NoOp 1: /job:localhost/replica:0/task:0/gpu:0 

a cpu: /job:localhost/replica:0/task:0/cpu:0 

a cpu/read: /job:localhost/replica:0/task:0/cpu:0 

a cpu/Assign: /job:localhost/replica:0/task:0/cpu:0 

init/NoOp: /job:localhost/replica:0/task:0/gpu:0 

init: /job:localhost/replica:0/task:0/gpu:0 

a gpu/initial value: /job:localhost/replica:0/task:0/gpu:0 

a cpu/initial value: /job:localhost/replica:0/task:0/cpu:0 

从 输出 的 日 志 中 可 以 看 到 在 生成 变量 a_gpu 时 , 无 法 放 到 GPU 上 的 运算 被 自动 调整 到 了 CPU 上 ( 比 

如 a gpu 和 a gpu/read)， 而 可 以 被 GPU 执行 的 命令 (比如 a gpu/initial value) 依旧 由 

GPU 执行 。 

虽然 GPU 可 以 加 速 TensorFlow 的 计算 ， 但 一 般 来 说 不 会 把 所 有 的 操作 全 部 放 在 GPU 
上 。 一 个 比较 好 的 实践 是 将 计算 密集 型 的 运算 放 在 GPU 上 ， 而 把 其 他 操作 放 到 CPU 上 。 
GPU 是 机 器 中 相对 独立 的 资源 ， 将 计算 放 入 或 者 转 出 GPU 都 需要 额外 的 时 间 。 而 且 GPU 
需要 将 计算 时 用 到 的 数据 从 内 存 复制 到 GPU 设备 上 ,这 也 需要 额外 的 时 | 间 。TensorFlow 可 
以 自动 完成 这 些 操作 而 不 需要 用 户 特 别处 理 ， 但 为 了 提高 程序 运行 的 速度 ， 用 户 也 需要 尽 
量 将 相关 的 运算 放 在 同一 个 设备 上 。 


10.2 ”深度 学 习 训 练 并 行 模式 


TensorFlow 可 以 很 容易 地 利用 单个 GPU 加 速 深 度 学 习 模 型 的 训练 过 程 , 但 要 利用 更 多 
的 GPU 或 者 机 器 , 需要 了 解 如 何 并 行 化 地 训练 深度 学 习 模 型 。 常 用 的 并 行 化 深度 学 习 模 型 
训练 方式 有 两 种 ， 同 步 模式 和 异步 模式 。 本 节 中 将 介绍 这 两 种 模式 的 工作 方式 及 其 优 务 。 

为 帮助 读者 理解 这 两 种 训练 模式 ， 本 节 首 先 简单 回顾 一 下 如 何 训练 深度 学 习 模 型 。 图 
10-1 展示 了 深度 学 习 模 型 的 训练 流程 图 。 深 度 学 习 模 型 的 训练 是 一 个 迭代 的 过 程 。 在 每 一 
轮 和 迭代 中 ， 前 向 传播 算法 会 根据 当前 参数 的 取 值 计算 出 在 一 小 部 分 训 红 数 据 上 的 预测 但， 
然后 反 向 传播 算法 再 根据 损失 函数 计算 参数 的 梯度 并 更 新 参数 。 在 并 行 化 地 训练 深度 学 习 模 
型 时 ， 不 同 设备 〈GPU 或 CPU) 可 以 在 不 同 训练 数据 上 运行 这 个 友 代 的 过 程 ， 而 不 同 并 行 
模式 的 区 别 在 于 不 同 的 参数 更 新 方式 。 

图 10-2 展示 了 异步 模式 的 训练 流程 图 。 从 图 10-2 中 可 以 看 到 ， 在 每 一 轮 迁 代 时 ， 不 
同 设 备 会 读 取 参 数 最 新 的 取 值 ， 但 因为 不 同 设备 读 取 参 数 取 值 的 时 间 不 一 样 ， 所 以 得 到 的 
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值 也 有 可 能 不 一 样 。 根 据 当 前 参数 的 取 值 和 随机 获取 的 一 小 部 分 训练 数据 ， 不 同 设备 各 目 
运行 反 同 传播 的 过 程 并 独立 地 更 新 参数 。 可 以 简单 地 认为 异步 模式 就 是 单机 模式 复制 了 多 
份 ， 每 一 份 使 用 不 同 的 训练 数据 进行 训练 。 在 异步 模式 下 ， 不 同 设备 之 间 是 完全 独立 的 。 





通过 前 向 传播 
获得 预测 值 











通过 反 向 传扬 
更 新 参数 


图 10-1 深度 学 习 模 型 训练 流程 图 






随机 选取 部 分 
训练 数据 










前 向 传播 获得 
预测 值 





前 向 传播 获得 


预测 值 





反 向 传播 更 新 
参数 






图 10-2 异步 模式 深度 学 习 模 型 训练 流程 图 


然而 使 用 异步 模式 训练 的 深度 学 习 模型 有 可 能 无 法 达到 较 优 的 训练 结果 。 图 10-3 中 给 
出 了 一 个 具体 的 样 例 来 说 明 异 步 模式 的 问题 。 其 中 黑色 曲线 展示 了 模型 的 损失 函数 ， 黑 色 
小 球 表示 了 在 加 时 刻 参 数 所 对 应 的 损失 函数 的 大 小 。 假 设 两 个 设备 do 和 qi 在 时 间 如 同时 读 
取 了 参数 的 取 值 ， 那 么 设备 do 和 di 计算 出 来 的 梯度 都 会 将 小 黑 球 向 左 移动 。 假 设 在 时 间 生 
设备 do 已 经 完成 了 反 疝 传播 的 计算 并 更 新 了 参数 , 修改 后 的 参数 处 于 图 10-3 中 小 灰 球 的 位 
置 。 然 而 这 时 的 设备 di 并 不 知道 参数 已 经 被 更 新 了 ， 所 以 在 时 间 时 ,设备 di 会 继续 将 小 
球 向 左 移 动 ， 使 得 小 球 的 位 置 达 到 图 10-3 中 小 白 球 的 地 方 。 从 图 10-3 中 可 以 看 到 ， 当 参 
数 被 调整 到 小 白 球 的 位 置 时 ， 将 无 法 达到 最 优点 。 
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人 9) 





随机 选取 部 分 
训练 数据 







前 问 传播 获得 
预测 值 















反 回 传播 获得 
参数 更 新 值 


反 癌 传播 获得 
参数 更 新 值 


反问 传播 获得 
参数 更 新 值 









计算 参数 更 新 平 
均值 并 更 新 参数 






图 10-4 同步 模式 深度 学 习 模 型 训练 流程 图 
为 了 避免 更 新 不 同步 的 问题 ， 可 以 使 用 同步 模式 。 在 同步 模式 下 ， 所 有 的 设备 同时 读 


取 参 数 的 取 值 ， 并 且 当 反 同 传播 算法 完成 之 后 同步 更 新 参数 的 取 值 。 单 个 设备 不 会 单独 对 
参数 进行 更 新 ， 而 会 等 待 所 有 设备 都 完成 反 向 传播 之 后 再 统一 更 新 参数 ”。 图 10-4 展示 了 


Q 不 同 的 算法 实现 会 有 略微 的 区 别 。TensorFlow 也 支持 更 加 灵活 的 同步 更 新 方式 使 计算 不 会 因为 某 个 设 
备 的 故障 而 被 卡 住 。 而 且 在 同步 模式 下 ，TensorFlow 会 保证 没有 设备 能 使 用 陈旧 的 梯度 更 新 模型 中 的 
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同步 模式 的 训练 过 程 。 从 图 10-4 中 可 以 看 到 ， 在 每 一 轮 过 代 时 ， 不同 设备 上 月 先 统一 读 取 当 
前 参数 的 取 值 ， 并 随机 获取 一 小 部 分 数据 。 然 后 在 不 同 设备 上 运行 反问 传播 过 程 得 到 在 各 
自 训 练 数据 上 参数 的 梯度 。 注 意 昌 然 所 有 设备 使 用 的 参数 是 一 致 的 ， 但 是 因为 训练 数据 不 
同 ， 所 以 得 到 参数 的 梯度 就 可 能 不 一 样 。 当 所 有 设备 完成 反 由 传播 的 计算 之 后 ， 需 要 计算 
出 不 同 设备 上 参数 梯度 的 平均 值 ， 最 后 再 根据 平均 值 对 参数 进行 更 新 。 

同步 模式 解决 了 异步 模式 中 存在 的 参数 更 新 问题 ， 然 而 同步 模 却 的 效率 却 低 于 有 弄 步 模 
式 。 在 同步 模式 下 ， 每 一 轮 迭 代 都 需要 设备 统一 开始 、 统 一 结束 。 如 宁 设 备 的 运行 速度 不 
一 致 ， 那 么 每 一 轮训 练 都 需要 等 竺 最 慢 的 设备 结束 才能 开始 更 新 人 参数， 于 是 很 多 时 间 将 被 
花 在 等 待 上 。 虽 然 理论 上 异步 模式 存在 缺陷 ， 但 因为 训练 深度 学 习 模型 时 使 用 的 随机 梯度 
下 降 本 身 就 是 梯度 下 降 的 一 个 近似 解法 , 而 且 即 使 是 梯度 下 降 也 无 法 保证 达到 全 局 最 优 值 ， 
所 以 在 实际 应 用 中 ， 在 相同 时 间 内 ， 使 用 异步 模式 训练 的 模型 不 一 定 比 同步 模式 震 。 所 以 
这 两 种 训练 模式 在 实践 中 都 有 非常 广泛 的 应 用 。 


10.3 多 GPU 并 行 


在 10.2 节 中 介绍 了 常用 的 分 布 式 深度 学 习 模 型 训练 模式 。 这 一 市 将 给 出 具体 的 
TensorFlow 代码 , 在 一 台 机 器 的 多 个 GPU 上 并 行 训 练 深度 学 习 模 型 。 因 为 一 般 来 说 一 台 机 
器 上 的 多 个 GPU 性 能 相似 ， 所 以 在 这 种 设置 下 会 更 多 地 采用 同步 模式 训练 深度 学 习 模 型 。 
下 面 将 给 出 具体 的 代码 ， 在 多 GPU 上 训练 深度 学 习 模型 解决 MNIST 问题 。 本 廊 的 样 例 代 
码 将 沿用 5.5 节 中 使 用 的 代码 框架 ， 并 且 使 用 5.5 节 中 给 出 的 mnist_inference.py 程序 来 完 
成 神经 网 络 的 前 向 传播 过 程 。 以 下 代码 给 出 了 新 的 神经 网 络 训练 程序 mnist multi_ 
gpu train.py。 

te i clo lolo Re Lh ot cel Noe 

from datetime import datetime.. . 


import os 
import time 


import tensorflow as tf 
import:nnLst inference 


# 定义 训练 神经 网 络 时 需要 用 到 的 配置 。 这 些 配 置 与 5.5 节 中 定义 的 配置 类 似 。 
BATCH SIZE = 100 

LEARNING RATE BASE = 0.001 

LEARNING RATE DECAY = 0.99 
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REGULARAZTION RATE = 0.0001 
TRAINING STEPS = 1000 
MOVING AVERAGE DECAY = 0.99 
N GPU = 4 


# 定义 日 志和 模型 输出 的 路 径 。 
MODEL SAVE PATH = "“/path/to/logs and models/" 
MODEL NAME = "model.ckpt" 


# 定义 数据 存储 的 路 径 。 因 为 需要 为 不 同 的 GPU 提供 不 同 的 训练 数据 ， 所 以 通过 placerholder 
# 的 方式 就 需要 手动 准备 多 份 数据 。 为 了 方便 训练 数据 的 获取 过 程 ， 可 以 采用 第 7 章 中 介绍 的 输 
# 入 队列 的 方式 从 TFRecord 中 读 取 数据 。 于 是 在 这 里 提供 的 数据 文件 路 径 为 将 MNIST 训练 数据 
# 转化 为 TFRecords 格式 之 后 的 路 径 。 如 何 将 MNIST 数据 转化 为 TFRecord 格式 在 第 7 章 中 有 
# 详细 介绍 ， 这 里 不 再 歼 述 。 

DATA PATH = "/path/to/data.tfrecords" 


# 定义 输入 队列 得 到 训练 数据 ， 且 体 细 节 可 以 参考 第 7 章 。 
def. “get Tnput (); 
filename queue = tf.train.string input producer( [DATA PATH]) 
reader = tf.TFRecordReader () 
“, Serialized example = reader.read(filename queue) 
# 定义 数据 解析 格式 。 
features = tf.parse single example\( 
serialized example, 
features={ 
"image raw' 七 EPEILXeQenReatuce (7 七 fsStzIng9)7 
'pixels': tf.FixedLenFeature([], tf.int64), 
'Jabel': tf.FixedLenFeature([], tf.int64), 


}) 
# 解析 图 片 和 标签 信息 。 
decoded image = tf.decode rawl(features['image raw'], tf.uint8) 
reshaped image = tf.reshape (decoded image, [784]) 
retyped image = tf.cast (reshaped image, tf.float32) 
label = tf.cast (features['label'], tf.int32) 


# 定义 输入 队列 并 返回 。 
min after dequeue = 10000 
capacity = min after dequeue +t 3 * BATCH SIZE 
returnstf transhuffie batcehl( 
[retyped image, labell], 
batch size=BATCH SIZE, 
capacity=capacity, 
min after dequeue=min after dequeue) 


# 定义 损失 函数 。 对 于 给 定 的 训练 数据 、 正 则 化 损失 计算 规则 和 命名 空间 ， 计 算 在 这 个 命名 空间 
# 下 的 总 损失 。 之 所 以 需要 给 定 命名 空间 是 因为 不 同 的 GPU 上 计算 得 出 的 正则 化 损失 都 会 加 入 名 为 
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# loss 的 集合 ， 如 果 不 通过 命名 空间 就 会 将 不 同 GPU 上 的 正则 化 损失 都 加 进来 。 
def2get2loss:(X7Y27 regularizer,”scope): 

# 沿用 5.5 节 中 定义 的 函数 来 计算 神经 网 络 的 前 向 传播 结果 。 

y = mnist inference.inference (x, regularizer) 

# 计算 交叉 粒 损 失 。 

Crossventropy = tft.reducesmean( 

tf.nn.sparse softmax cross entropy with logits(y, y )) 

# 计算 当前 GPU 上 计算 得 到 的 正则 化 损失 。 

regularization loss = tf.add n(tf.get collection('losses', scope)) 

# 计算 最 终 的 总 损失 。 

loss = cross entropy + regularization loss 

return loss 


# 计算 每 一 个 变量 梯度 的 平均 值 。 

def average gradients (tower grads): 
averageagradss = 
# 枚 举 所 有 的 变量 和 变量 在 不 同 GPU 上 计算 得 出 的 梯度 。 
上 OF grad and vars in zip(*tower grads): 

# 计算 所 有 GPU 上 的 梯度 平均 值 。 

grads = [] 

Tor GS LN Grad AnsvAars: 
expandedsg = tfsexpandsdims (gy 0) 
grads .append (expanded 9g) 

grad = tf.concat (0, grads) 

grad = tf.reduce mean (grad, 0) 


Vv = Gradsand varsibOld 

grad and var = (grad, v) 

# 将 变量 和 它 的 平均 梯度 对 应 起 来 。 

average grads.append (grad and var) 
# 返回 所 有 变量 的 平均 梯度 ， 这 将 被 用 于 变量 更 新 。 


return average grads 


# 主 训练 过 程 。 
def main (argv=None): . 
# 将 简单 的 运算 放 在 CPU 上 ， 只 有 神经 网 络 的 训练 过 程 放 在 GPU 上 。 
with tf.Graph() .as default(), tf.device('/cpu:0'): 
# 获取 训练 batch。 
X7Yy =>Ieteinput() 
regularizer = tf.contrib.layers.12 regularizer (REGULARAZTION RATE) 


# 定义 训练 轮 数 和 指数 衰减 的 学 习 率 。 

global step = tf.get variablel! 
‘global step', [], initializer=tf.constant initializer{(0), 
trainable=False) 

learning rate = tf.train.exponential decayl( 
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LEARNING RATE BASE, global step, 60000 / BRATCH SIZE, 
LEARNING RATE DECAY) 


# 定义 优化 方法 。 


opt = tf.train.GradientDescentOptimizer (learning rate) 


tower grads = [] 
# 将 神经 网 络 的 优化 过 程 跑 在 不 同 的 GPU 上 。 
for Linarange(NeGPo) 
# 将 优化 过 程 指定 在 一 个 GPU 上 。 
with tf.device('/gpu:%d' % i): 
withetf nameascope (EGPU Sd $$ 1) as scope: 
Cur loss =°*getTloss(xX, yr regularizer; Scope) 
# 在 第 一 次 声明 变量 之 后 ， 将 控制 变量 重用 的 参数 设置 为 True。 这 样 可 以 
# 让 不 同 的 GPU 更 新 同一 组 参数 。 注 意 tf .name scope 函数 并 不 会 影响 
# tf.get ”variable 的 命名 空间 。 
tf.get variable scope()..reuse Varlables () 


# 使 用 当前 GPU 计算 所 有 变量 的 梯度 。 
grads =-:Oopt.compute “gradients (cur loss) 
tower grads.append (grads) 


# 计算 变量 的 平均 梯度 ， 并 输出 到 TensorBoard 日 志 中 。 
grads = average gradients (tower grads) 
OIEGradr ee Vareinsaqrads.: 
if grad is not None: 
tf.histogram summary ( 


© 


'gradients on average/%s' $% var.op.name, grad) 


# 使 用 平均 梯度 更 新 参数 。 

apply gradient op = opt.apply gradients ( 
grads, global step=global step) 

forevar In tf tralinable variabiles():: 
tf.histogram summary (var.op.name, .var) 


# 计算 变量 的 滑动 平均 值 。 

variable averages = tf.train.ExponentialMovingAveragel 
MOVING AVERAGE DECAY, global step) 

variables averages op = variable averages.apply( 
tf.trainable variables ()) 


# 每 一 轮 返 代 需 要 更 新 变量 的 取 值 并 更 新 变量 的 请 动 平均 值 。 


train op = tf.group(apply gradient op, variables averages op) 
saver = tf.train;Saver (tf.all variables ()) 
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summary op = tf.merge all summaries() 
init = tf.initialize all variables() 


# 训练 过 程 。 : 
with tf.Session (config=tf.ConfigProtol( 
allow soft placement=Truey 
log-device ”placement=True)] ds Sess: 
# 初始 化 所 有 变量 并 局 动 队列 。 
TT 
GOOLQSE=Et 人 trann Coordrnator(y 
threads = tf.train:startsqueue rurners(sess=sess, Coord=coord,) 
summary writer = tf.train.SummaryWriter\( 
MODEL SAVE PATH, sess.graph) 


for step in range (TRAINING STEPS): 
# 执行 神经 网 络 训练 操作 ， 并 记录 训练 操作 的 运行 时 间 。 


startotime y= timeetLime() 
DSS Vvaltes = Sess ,Tun (braLn opr Cur Losesdl) 
duration =“time.time\()®= start: time 


# 每 隔 一 段 时 间 展 示 当 前 的 训练 进度 ， 并 统计 训练 速度 。 
if step != 0 and step $% 10 == 0: 
# 计算 使 用 过 的 训练 数据 个 数 。 因 为 在 每 一 次 运行 训练 操作 时 ， 每 一 个 GPU 
# 部 会 使 用 一 个 batch 的 训练 数据 ， 所 以 总 共用 到 的 训练 数据 个 数 为 
# batch 大 小 xGPU 个 数 。 
num examples spers Stepa= -BALCH SLO Ne GPY 


# num examples per step 为 本 次 迭代 使 用 到 的 训 练 数据 个 数 ， 

# duration 为 运行 当前 训练 过 程 使 用 的 时 间 ， 于 是 平均 每 秒 可 以 处 理 的 训 
# 练 数据 个 数 为 num examples Per step / duration。 
examples per sec = num examples per step / duration 


# duration 为 运行 当前 训练 过 程 使 用 的 时 间 ， 因 为 在 每 一 个 训练 过 程 中 ， 
# 每 一 个 GPU 都 会 使 用 一 个 batcnh 的 训练 数据 ， 所 以 在 单个 batch 上 的 训 
# 练 所 需要 时 间 为 dauration / GPU 个 数 。 

sec per batch = duration / N GPU 


# 输出 训练 信息 。 
format "str ue (UStepstor LOSS (SE examples/ ' 
OOCr SE SecnDatctr,) 
print (format str % (stepr loss valuer 
examplessperasecr SeCnpernedatcn)y 


# 通过 TensorBoard 可 视 化 训练 过 程 。 


summary = sess.runl(summary op) 
summary writer.add summary (summary, step) 
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# 每 隔 一 段 时 间 保 存 当 前 的 模型 。 
Tf “step SS TO000===00r (step + 1) = 一 TRAINTINGESTEPS: 
checkpoimteapaths=30s spath.aIorni( 
MODEL SAVE PATH, MODEL NAME) 
saver.save (sess, checkpoint path, global step=step) 


Coord.:request stoP 全 
coordq.jolin (threads) 


1 Mo MALN Es 
tf.app.run() 


在 AWS 的 g2.8xlarge 实例 上 运行 上 面 这 段 程序 可 以 得 到 类 似 下 面 的 结果 : 

step 10, loss 71.90 (15292.3 examples/sec; 0.007 sec/batch) 
37.97 (18758.3 examples/sec; 0.005 sec/batch) 
9.54 (16313.3 examples/sec; 0.006 sec/batch) 
11.84 (14199.0 examples/sec; 0.007 sec/batch) 


| 


step 20, loss 


step 30, “loss 


step 40, loss 


0.66 (15034.7 examples/sec; 0.007 sec/batch) 
1.56 (16134.1 examples/sec; 0.006 sec/batch) 


step 980, loss 


step 990, loss 


有 


在 AWS 的 g2.8xlarge 实例 上 运行 以 上 代码 可 以 同时 使 用 4 个 GPU 训练 神经 网 络 。 
图 10-5 显示 了 运行 样 例 代码 时 不 同 GPU 的 使 用 情况 。 


TUe Nov 29 006*46;07 2016 


| 
Pawr: Usage/Capl Memory -Usage | 


O00600:60:63.0 
3770MiB 7 


NA 
Defagit | 


了 
Defaoutt } 


1 908600:00;85:.0 
3770MEB 7 


python 
python 
python 
python 





图 10-5 在 AWS 的 g2.8xlarge 实例 上 运行 MNIST 样 例 程序 时 GPU 的 使 用 情况 
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” ”因为 在 5.5 节 中 定义 的 神经 网 络 规模 比较 小 ,所 以 在 图 10-5 中 显示 的 GPU 使 用 率 不 高 。 
如 果 训 练 大 型 的 神经 网 络 模型 ，TensorFlow 将 会 占 满 所 有 用 到 的 GPU。 

图 10-6 展示 了 通过 TensorBoard“ 可视化 得 到 的 样 例 代码 TensorFlow 计算 图 , 其 中 节点 
上 的 颜色 代表 了 不 同 的 设备 ， 比 如 黑色 代表 CPU、 白 色 代 表 第 一 个 GPU， 等 等 。 从 图 10-5 
中 可 以 看 出 ， 训 练 神经 网 络 的 主要 过 程 被 放 到 了 GPU 0、GPU 1、GPU 2 和 GPU 3 这 4 
个 模块 中 ， 而 且 每 一 个 模块 运行 在 一 个 GPU 上 。 对 比 图 10-5 中 的 TensorFlow 计算 图 可 视 
化 结果 和 图 10-4 中 介绍 的 同步 模式 分 布 式 深度 学 习 训 练 流程 图 可 以 发 现 , 这 两 个 图 的 结构 
是 非常 接近 的 。 








JensorBoard 日 
回 让 orecr 
owniondt ee 
ey 
Run - 
全 0 
Session a 
-一 -一 -一 一 一 - AM -we mr 
mana i 
Upload Ce St re 
Color © Srxure i oo 一 
pm 
@ be 
Wt cn? 人 
fei pe } 
AB Y 
EEG7Y 
ne ON 
OO vo on 
Graph =apandhi 
OY pantpaee 
C7 Srhode 
~ 、 Ursaneed 
> Comoese ens 
YW Ceastiant 
加 Tour 
~- Ds: 


图 10-6 使 用 了 4 个 GPU 的 TensorFlow 计算 图 可 视 化 结果 


通过 调整 参数 N_GPU， 可 以 实验 同步 模式 下 随 着 GPU 个 数 的 增加 训练 速度 的 加 速 比 
率 。 图 10-7 展示 了 在 给 出 的 MNIST 样 例 代 码 上 , 训练 速度 随 着 GPU 数量 增加 的 变化 趋势 。 
从 图 10-7 中 可 以 看 出 ， 当 使 用 两 个 GPU 时 ， 模 型 的 训练 速度 是 使 用 一 个 GPU 的 1.92 倍 。 
也 束 是 说 当 GPU 数量 较 小 时 ， 训 练 速度 基本 可 以 随 着 GPU 的 数量 线性 增长 。 图 10-8 展示 
了 当 GPU 数量 增多 时 ， 训 练 速 度 随 着 GPU 数量 增加 的 加 速 比 。 从 图 10-8 中 可 以 看 出 ， 当 
GPU 数量 增加 时 ， 虽 然 加 速 比 不 再 是 线性 ， 但 TensorFlow 仍然 可 以 通过 增加 GPU 数量 有 
效 地 加 速 深度 学 习 模 型 的 训练 过 程 。 


GD TensorBoard 在 第 9 章 中 有 详细 介绍 。 
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相 比 使 用 单个 GPU ,训练 过 席 的 加 比 





| 和 和 到 
0O.0D 


ve _SPU 炊 向 rr 


图 10-7 训 练 速度 随 着 GPU 数量 增加 的 变化 趋势 
(此 数据 是 通过 MNIST 样 例 代码 在 AWS 的 g2.8xlarge 实例 上 测试 得 到 的 ) 


个 GPU， 训 练 速度 的 加 比 





15 
ed en esd a 是 Co 
4 

. : 区 
os 
2 4 8 16 


GPU 激 量 


相 比 使 用 单 


图 10-8 “训练 速度 随 着 GPU 数量 增加 的 变化 趋势 ， 此 数据 来 自 谷 歌 官方 的 测试 结果 ” 


10.4 “分 布 式 TensorFlow 


通过 多 GPU 并 行 的 方式 可 以 达到 很 好 的 加 速效 果 。 然 而 一 台 机 器 上 能 够 安装 的 GPU 
有 限 ， 要 进一步 提升 深度 学 习 模型 的 训练 速度 ， 就 需要 将 TensorFlow 分 布 式 运行 在 多 人 台 机 
器 上 。 本 节 将 介绍 如 何 编写 以 及 运行 分 布 式 TensorFlow 的 程序 。 首 先 ， 在 10.4.1 小 节 中 将 
介绍 分 布 式 TensorFlow 的 工作 原理 ,并 给 出 最 简单 的 分 布 式 TensorFlow 样 例 程序 。 在 这 一 
小 节 中 也 将 介绍 不 同 的 TensorFlow 分 布 式 方式 。 然 后 ， 在 10.4.2 小 节 中 将 给 出 两 个 完整 的 
TensorFlow 样 例 程序 来 同步 或 者 异步 地 训练 深度 学 习 模型 。 最 后 ， 在 10.4.3 小 节 中 将 总 结 
目前 原生 态 分 布 式 TensorFlow 中 的 不 足 ， 并 介绍 才 云 科技 〈Caicloud.io) 提供 的 分 布 式 
TensorFlow 解决 方案 (TensorFlow as a Service，TaaS ) 。 


QW 具体 结果 可 以 参考 谷歌 官方 技术 博客 : https://research.googleblog.com/2016/04/announcing-tensorflow- 
08-now-with.html。 
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10.4.1 分 布 式 TensorFlow 原理 


在 10.2 市 中 介绍 了 分 布 式 TensorFlow 训练 深度 学 习 模 型 的 理论 。 本 小 节 将 具体 介绍 如 
何 使 用 TensorFlow 在 分 布 式 集群 中 训练 深度 学 习 模 型 。 以 下 代码 展示 了 如 何 创 建 一 个 最 简 
单 的 TensorFlow 集群 : 

.Import tensorflow as tf 

c= tf.constant ("Hello, distributed TensorFlow!") 

# 创建 一 个 本 地 TensorFlow 集群 

Server>= tf tralns ServerscecreatesLtocal"server(d) 

# 在 集群 上 创建 一 个 会 话 。 

sess = tf.Session(server.target) 

# 输出 Hello, distributed TensorFlow! 

print sess.runl(c) 


在 以 上 代码 中 ， 首 先 通过 ttrain.Server.create local server 函数 在 本 地 建立 了 一 个 只 有 
一 台 机 器 的 TensorFlow 集群 。 然 后 在 该 集群 上 生成 了 一 个 会 话 ， 并 通过 生成 的 会 话 将 运算 
运行 在 创建 的 TensorFlow 集群 上 。 虽 然 这 只 是 一 个 单机 集群 ， 但 它 大 致 反应 了 TensorFlow 
集群 的 工作 流程 。TensorFlow 集群 通过 一 系列 的 任务 (tasks) 来 执行 TensorFlow 计算 图 中 
的 运算 。 一 般 来 说 ， 不 同 任 务 跑 在 不 同 机 器 上 。 最 主要 的 例外 是 使 用 GPU 时 ， 不 同 任务 可 
以 使 用 同一 台 机 器 上 的 不 同 GPU。TensorFlow 集群 中 的 任务 也 会 被 聚合 成 工作 (jobs)， 每 
个 工作 可 以 包含 一 个 或 者 多 个 任务 。 比 如 在 训练 深度 学 习 模 型 时 ， 一 台 运 行 反 向 传播 的 机 
器 是 一 个 任务 ， 而 所 有 运行 反 回 传播 机 器 的 集合 是 一 种 工作 。 

上 面 的 样 例 代 码 是 只 有 一 个 任务 的 集群 。 当 一 个 TensorFlow 集群 有 多 个 任务 时 ， 需 要 
使 用 给 train.ClusterSpec 来 指定 运行 每 一 个 任务 的 机 器 。 比 如 以 下 代码 展示 了 在 本 地 运行 有 
两 个 任务 的 TensorFlow 集群 。 第 一 个 任务 的 代码 如 下 : 


jmport tensorflow as tf 
c= tf.constant ("Hello from serverl!") 


# 生成 一 个 有 两 个 任务 的 集群 ， 一 个 任务 跑 在 本 地 2222 端口 ， 另 外 一 个 跑 在 本 地 2223 端口 。 
cluster = tf.train.ClusterSpec!( 

uoocalm ml localhost:22220 ocCalhostis2223l:) 
# 通过 上 面 生成 的 集群 配置 生成 Server， 并 通过 job name 和 task index 指定 当前 所 启动 
# 的 任务 。 因 为 该 任务 是 第 一 个 任务 ， 所 以 task index 为 0。 


server = tf.train.Server (cluster, job' name="]ocal", task index=0) 


# 通过 server .target 生成 会 话 来 使 用 TensorFlow 集群 中 的 资源 。 通 过 设置 
# log device placement 可 以 看 到 执行 每 一 个 操作 的 任务 。 


sess = tf.Sessionl 


264 


ww ai bbt.com DODODODODODOD 





第 10 章 TensorFlow 计算 加 速 


server.target, config=tf.ConfigProto(log device placement=True)) 
PETnNnLesSesSserun(c) 
server.Jjoin() 


下 面 给 出 了 第 二 个 任务 的 代码 : 


import tensorflow as tf 
C= tf.constant ("Hello from server2!1") 


# 和 第 一 个 程序 一 样 的 集群 配置 。 集 群 中 的 每 一 个 任务 需要 采用 相同 的 配置 。 
cluster = tf.train.ClusterSpec!( 

eoalse ocGalnost Localhosts 2223u] 
# 指定 task index 为 1， 所 以 这 个 程序 将 在 localhost :2223 启动 服务 。 


server = tf.train.Server(cluster, JjJob name="]local", task index=1) 


# 剩 下 的 代码 都 和 第 一 个 任务 的 代码 一 致 。 


启动 第 一 个 任务 后 ， 可 以 得 到 类 似 下 面 的 输出 : 


I tensorflow/core/distributed runtime/rpc/grpc channel.cc:206] Initialize 
HostPortsGrpcChannelCache for job local -> {localhost:2222, localhost:2223} 
I tensorflow/core/distributed runtime/rpc/grpc server lib.cc:202] Started 
server with target: grpc://localhost:2222 

E23 006065:824503525 E2232 CCDaC lent OSL GL] failed to 
CONNecCt to Dra lL2 10 0 :2223 SOCKet eerror:” CoOnnectlionsrefused 

EE 0B 20 0002050220.3 L22320 .CCPDECELIeNtS POS dd FaneledtO 
CONnNnectstos lipva L200 2223.. SOCKet error: :CONnnNnect Lon reEused 

I tensorflow/core/common runtime/simple placer.cc:818] Const: /job:local/ 
replica:0/task:0/cpu:0 

Const:S /joOb: local/replica0/task:0/cpu:0 

Hello from serverl! 


从 第 一 个 任务 的 输出 中 可 以 看 到 ， 当 只 启动 第 一 个 任务 时 ， 程 序 会 停 下 来 等 待 第 二 个 
任务 启动 ， 而 且 持 续 输 出 failed to connect to 'ipv4:127.0.0.1:2223': socket error: connection 
refused。 当 第 二 个 任务 启动 后 , 可 以 看 到 从 第 一 个 任务 中 会 输出 Hello from serverl! 的 结果 。 
第 二 个 任务 的 输出 如 下 : 


I tensorflow/core/distributed runtime/rpc/grpc channel.cc:206] Initialize 
HostPortsGrpcChannelCache for job local -> {localhost:2222, localhost:2223} 
I tensorflow/core/distributed runtime/rpc/grpc server lib.cc:202] Started 
server with target: grpc://localhost:2223 

Const: /job:local/replica:0/task:0/cpu:0 ; 

I tensorflow/core/common runtime/simple placer.cc:818] Const: /job:local/ 
replica:0/task:0/cpu:0 

Hello from server2! 
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值得 注意 的 是 第 二 个 任务 中 定义 的 计算 也 被 放 在 了 设备 /job:local/replica:0/task: 0 
上 上。 也 束 是 说 这 个 计算 将 由 第 一 个 任务 来 执行 。 从 上 面 这 个 样 例 可 以 看 到 ， 
tf.train.Server.target 生成 的 会 话 可 以 统一 管理 整个 TensorFlow 集群 中 的 资源 。 

和 使 用 多 GPU 类 似 ，TensorFlow 支持 通过 tf.device 来 指定 操作 运行 在 哪个 任务 上 。 比 
如 将 第 二 个 任务 中 定义 计算 的 语句 改 为 以 下 代码 ， 就 可 以 看 到 这 个 计算 将 被 调度 到 
/job:local/replica:0/task:1/cpu:0 上 面 。 


with tf.device("/job:local/task:1"): 
c= tf.constant("Hello from server2!") 


在 上 面 的 样 例 中 只 定义 了 一 个 工作 “local”。 但 一 般 在 训练 深度 学 习 模 型 时 ,会 定义 两 
个 工作 。 一 个 工作 专门 负责 存储 、 获 取 以 及 更 新 变量 的 取 值 ， 这 个 工作 所 包含 的 任务 统称 
为 参数 服务 器 (parameter server，ps)。 另 外 一 个 工作 负责 运行 反 向 传播 算法 来 获取 参数 梯 
度 ， 这 个 工作 所 包含 的 任务 统称 为 计算 服务 器 〈worker)。 下 面 给 出 了 一 个 比较 常见 的 用 于 
训练 深度 学 习 模 型 的 TensorFlow 集群 配置 方法 。 

tf.train.ClusterSpec ({ 

WODLZKeI :sl 
Et WOrker0 2 
“tf-workerl:2222.. 
i- WOLKE 和 T2222 
], 
Wt oT- jhe 
CED 2 
地 味 蜂 可 o7 关 国庆 
] }) 


使 用 分 布 式 TensorFlow 训练 深度 学 习 模 型 一 般 有 两 种 方式 。 一 种 方式 叫做 计算 图 内 分 
布 式 〈in-graph replication ) 。 使 用 这 种 分 布 式 训 练 方式 时 ， 所 有 的 任务 都 会 使 用 一 个 
TensorFlow 计算 图 中 的 变量 (也 就 是 深度 学 习 模 型 中 的 参数 ), 而 只 是 将 计算 部 分 发 布 到 不 
同 的 计算 服务 器 上 。10.3 节 中 给 出 的 使 用 多 GPU 样 例 程 序 就 是 这 种 方式 。 多 GPU 样 例 程 
序 将 计算 复制 了 多 份 ， 每 一 份 放 到 一 个 GPU 上 进行 运算 。 但 不 同 的 GPU 使 用 的 参数 都 是 
在 一 个 TensorFlow 计算 图 中 的 。 因 为 参数 都 是 存在 同一 个 计算 图 中 ， 所 以 同步 更 新 参数 比 
较 容 易 控 制 。 在 10.3 节 中 给 出 的 代码 也 实现 了 参数 的 同步 更 新 。 然 而 因为 计算 图 内 分 布 式 
需要 有 一 个 中 心 节 点 来 生成 这 个 计算 图 并 分 配 计算 任务 ， 所 以 当 数 据 量 太 大 时 ， 这 个 中 心 
节点 容易 造成 性 能 瓶颈 。 

为 外 一 种 分 布 式 TensorFlow 训练 深度 学 习 模 型 的 方式 叫 计算 图 之 间 分 布 式 


Q 注意 这 里 给 出 的 tworker(i) 和 tf-ps(i) 都 是 服务 器 地 址 。 
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(between-graph replication)。 使 用 这 种 分 布 式 方式 时 , 在 每 一 个 计算 服务 器 上 都 会 创建 一 个 
独立 的 TensorFlow 计算 图 ， 但 不 同 计 算 图 中 的 相同 参数 需要 以 一 种 固定 的 方式 放 到 同一 个 
参数 服务 器 上 。 TensorFlow 提供 了 tttrain.replica _ device setter 函数 来 帮助 完成 这 一 个 过 程 ， 
在 10.4.2 小 节 中 将 给 出 具体 的 样 例 。 因 为 每 个 计算 服务 器 的 TensorFlow 计算 图 是 独立 的 ， 
所 以 这 种 方式 的 并 行 度 要 更 高 。 但 在 计算 图 之 间 分 布 式 下 进行 参数 的 同步 更 新 比较 困难 。 
为 了 解决 这 个 问题 ，TensorFlow 提供 了 tttrain.SyncReplicasOptimizer 函数 来 帮助 实现 参数 
的 同步 更 新 。 这 让 计算 图 之 间 分 布 式 方式 锌 更 加 广泛 地 使 用 。 在 10.4.2 小 节 中 将 给 出 使 用 计 
算 图 之 间 分 布 式 的 样 例 程 序 来 实现 异步 模式 和 同步 模式 的 并 行 化 深度 学 习 模 型 训练 过 程 。 


10.4.2 ”分布 式 TensorFlow 模型 训练 


本 小 节 中 将 给 出 两 个 样 例 程序 分 别 实 现 使 用 计算 图 之 间 分 布 式 〈Between-graph 
replication) 完成 分 布 式 深度 学 习 模 型 训练 的 异步 更 新 和 同步 更 新 。 第 一 部 分 将 给 出 使 用 计 
算 图 之 间 分 布 式 实现 异步 更 新 的 TensorFlow 程序 。 这 一 部 分 也 会 给 出 具体 的 命令 行将 该 程 
序 分 布 式 的 运行 在 一 个 参数 服务 器 和 两 个 计算 服务 器 上 , 并 通过 TensorBoard 可 视 化 在 第 一 
个 计算 服务 器 上 的 TensorFlow 计算 图 。 第 二 部 分 将 给 出 计算 图 之 间 分 布 式 实现 同步 参数 更 
新 的 TensorFlow 程序 。 同 步 参数 更 新 的 代码 大 部 分 和 异步 更 新 相似 ， 所 以 在 这 一 部 分 中 将 
重点 介绍 它们 之 间 的 不 同 之 处 。 


异步 模式 梓 例 程序 


下 面 的 样 例 代码 将 仍然 采用 5.5 节 中 给 出 的 模式 ， 并 复 用 5.5 节 mnist inference.py 程 
序 中 定义 的 前 向 传播 算法 。 以 下 代码 实现 了 异步 模式 的 分 布 式 神经 网 络 训 练 过 程 。 


并 二 COLNG Ele:B A 


import time 
import tensorflow as tf i : 2 
from tensorflow.examples.tutorials.mnist import input data 


import mnist inference 


# 和 5.5 节 中 类 似 的 配置 神经 网 络 的 设置 。 
BATCH SIZE = 100 
LEARNING RATE BASE = 0.01 
LEARNING RATE DECAY = 0.99 
REGULARAZTION RATE = 0.0001 
TRAINING STEPS = 10000 

# 模型 保存 的 路 径 。 
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MODEL SAVE PATH = "/path/to/model" 
. # MNIST 数据 路 径 。 
DATA PATH = "“/path/to/data" 


# 通过 flags 指定 运行 的 参数 。 在 10 .4.1 小 节 中 对 于 不 同 的 任务 (task) 给 出 了 不 同 的 程序 ， 
# 但 这 不 是 一 种 可 扩展 的 方式 。 在 这 一 小 节 中 将 使 用 运行 程序 时 给 出 的 参数 来 配置 在 不 同 

# 任务 中 运行 的 程序 。 

FLAGS = tf.app.flags.FLAGS 


# 指定 当前 运行 的 是 参数 服务 器 还 是 计算 服务 器 。 参 数 服务 器 只 负责 TensorFlow 中 变量 的 维护 
# 和 管理 ， 计 算 服 务 器 负责 每 一 轮 达 代 时 运行 反 同 传 播 过 程 。 
tf .app Elages DEELNE -Stringt JoD namess WOLKeLS i DOESOL mWOLKCT Rr.:) 


# 指定 集群 中 的 参数 服务 器 地 址 。 

tf .appi flagssDEEINE: string 
DS Noster Tf P02227 tt pSLEIli 
'Comma-separated list of hostname:port for the parameter server JjJobs. ' 
"OO 2 Sd bs 


# 指定 集群 中 的 计算 服务 器 地 址 。 

tf.app.flags.DEFINE stringl( 
sWOrker hnostes yA tf=ewOrker0 222207tf-Wworkeri:11ll:; 
'Comma~-separated list of hostname:port for the worker Jobs. '' 
"eg "ti -worker022227 tft=-workert:1L1ll sa) 


# 指定 当前 程序 的 任务 TID。TensorFlow 会 自动 根据 参数 服务 器 /计算 服务 器 列表 中 的 端口 号 
# 来 启动 服务 。 注 意 参数 服务 器 和 计算 服务 器 的 编号 都 是 从 0 开始 的 。 
tf.app.flags.DEFINE integer( 
'task id', 0, "Task ID of the worker/replica running the training.") 


# 定义 TensorFlow 的 计算 图 ， 并 返回 每 一 轮 迭 代 时 需要 运行 的 操作 。 这 个 过 程 和 5.5 节 中 的 主 
# 函数 基本 一 致 ， 但 为 了 使 处 理 分 布 式 计算 的 部 分 更 加 突出 ， 本 小 节 将 此 过 程 整理 为 一 个 函数 。 
defabuiadzrmodael (x Vy ry 1S Chiery): 

regularizer = tf.contrib.layers.12 regularizer (REGULARAZTION RATE) 

# 通过 和 5 .5 节 给 出 的 mnist inference.py 代码 计算 神经 网 络 前 问 传 播 的 结果 。 

Vy = NLSte interencesinference (Xr reqUlarlzZer 

global step = tf.Variable(0, trainable=False) 


# 计算 损失 函数 并 定义 反 回 传播 过 程 。 

cross entropy = tf.nn.sparse softmax cross entropy with logits( 
yr tf.argmax(y ,. 1)) 

cross. entropy mean. = tf.reduce mean(cross entropy) 

lJ]oss:= Cross entropy mean + tf.add n(tf.get collection(’'losses )) 

learning rate = tf.train.exponential decayl( 
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LEARNING RATE BASE, global step, 60000 / BATCH SIZE, 
LEARNING RATE DECAY) 


# 定义 每 一 轮 友 代 需 要 运行 的 操作 。 

train op = tf.train.GradientDescentOptimizer (learning rate)\ 
.minimize(loss, global step=global step) 

returnsglobadstepre lossy trarnsop 


# 训练 分 布 式 深度 学 习 模 型 的 主 过 程 。 
def main (argv=None): 
# 解析 £1lags 并 通过 tf.train.ClusterSpec 配置 TensorFlow 集群 。 
psehostse MELAGSS pSeEhostsnspLit( ye) 
worker hosts = FLAGS.worker hosts.split(',.) 
cluster = tf.train.ClusterSpec({"ps": ps hosts, "worker": worker hosts}) 
# 通过 ClusterSpec 以 及 当前 任务 创建 Server。 
server = tf.train.Serverl( 
cluster, job name=FLAGS.job name, task -1ndex=FELAGS.task: 1d) 


# 参数 服务 器 只 需要 管理 TensorFlow 中 的 变量 ， 不 需要 执行 训练 的 过 程 。server .join () 
并 会 一 直 停 在 这 条 语句 上 。 
if FLAGS.Job name == 'ps' 

SerVer .join () 


# 定义 计算 服务 器 需要 运行 的 操作 。 在 所 有 的 计算 服务 器 中 有 一 个 是 主 计 算 服 务 器 ， 它 除了 负责 
# 计算 反 向 传播 的 结果 ， 它 还 负责 输出 日 志和 保存 模型 。 

ISacChrefe (FLAGS tas kro 二 三 二 人 

mistoe = inputa=dataread data sets (DATASPATH,SonNne: hot=True) 


# 通过 tf.train.replica device setter 国 数 来 指定 执行 每 一 个 运算 的 设备 。 
#4 tf.train.replica device setter 函数 会 自动 将 所 有 的 参数 分 配 到 参数 服务 器 上 ， 而 
+ 计算 分 配 到 当前 的 计算 服务 器 上 。 图 10-9 展示 了 通过 TensorBoarq 可 视 化 得 到 的 第 一 个 计 
# 算 服 务 器 上 运算 分 配 的 结果 。 
with tf.device (tf.train.replica device setter'\ 
worker device="/job:worker/task:%d" % FLAGS.task id， 
cluster=cluster)): 
x = tf.placeholder( 
ttftToat rtNoner mist InferencerNPUTNODE]ls 
name='x-input') 
yes= tt:placeholder( 
tf float32r [INonerE mist nfterences OUTPUT NODE), 
name='y-input'") 
# 定义 训练 模型 需要 运行 的 操作 。 
globalssteprelossn tralnsop. = buLld :model (x Y) 
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# 定义 用 于 保存 模型 的 saver。 

saver = tf.train.SsSaver() 

# 定义 日 志 输 出 操作 。 

summary op = tf.merge all summaries () 

# 定义 变量 初始 化 操作 。 

inlt- OpPa= tf I nitialtse all varLablesa() 

# 通过 tf.train.Supervisor 管理 训练 深度 学 习 模型 的 通用 功能 。 

# tf.train. Supervisor 能 统一 管理 队列 操作 、 模 型 保存 、 日 志 输 出 以 及 会 话 的 生成 。 

SV = tf.train.Supervisor\( 
is chief=is chief, # 定义 当前 计算 服务 器 是 否 为 主 计 算 服 务 器 ， 只 有 

# 主 计算 服务 器 会 保存 模型 以 及 输出 日 志 。 

logdir=MODEL SAVE PATH,  ” # 指定 保存 模型 和 输出 日 志 的 地 址 。 


init op=init op, # 指定 初始 化 操作 。 
summary op=summary op, # 指定 日 志 生 成 操作 。 
saver = saver, # 指定 用 于 保存 模型 的 saver。 


global step=global step,，# 指定 当前 迭代 的 轮 数 ， 这 个 会 用 于 生成 保存 模 
# 型 文件 的 文件 名 。 

save model secs=60, # 指定 保存 模型 的 时 间 间 隅 。 

save summaries secs=60)  # 指定 日 志 输 出 的 时 间 间 隔 。 


sess config = tf.ConfigProto(allow soft placement=True, 
logsdevice’ placement=False) 

# 通过 tf.train.Supervisor 生成 会 话 。 

SeSS = SV prepare Or -Wait for session 


serverstarget contig=SeSs ConEtg) 


step = 0 
start time.= time.time () 
# 执行 迭代 过 程 。 在 迭代 过 程 中 tf.train.Supervisor 会 帮助 输出 日 志 并 保存 模型 ， 
# 所 以 不 需要 直接 调用 这 些 过 程 。 
while not sv.should stop () : 
xs ys = mnist.train.next batch (BATCH SIZE) 
, loss value, global step value = sess.run( 
[train op, loss, global step], feed dict={x: Sy) 
if global step value >= TRAINING STEPS: break 


# 每 隔 一 段 时 间 输 出 训练 信息 。 
if step > 0 and step % 100 == 
Gduration = time.time() 一 start time 
# 不 同 的 计算 服务 器 都 会 更 新 全 局 的 训练 轮 数 ， 所 以 这 里 使 用 
# global step value 可 以 直接 得 到 在 训练 中 使 用 过 的 batch 的 总 数 。 


sec per batch = duration / global step value 
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format str = ("After $d training steps (%d global steps), " 
Oss Oonatralning. Dateh Ts. os 
"(3F "sec/batcn}y™) 
print(format str (steprgLobal :step value, 
LOSS Value,.SeCcsper batch)) 


step += 1 


SV.Stop() 
Lf AmMme te TINAT 
tfuapD er ur 


假设 上 面 代码 的 文件 名 为 dist tf mnist async.py， 那 么 要 启动 一 Re 个 参数 服务 
两 个 计算 服务 器 的 集群 ， 需 要 先 在 运行 参数 服务 器 的 机 器 上 局 动 以 下 命 


Python dist tf mnist async.py \ 


--job name='ps' \ 

--task id=0 \ 

-pe hostss tf -ps0 2222N 
-=~WworkershOoOsts= tf -woOrker0 :2222rtf=WwOrkerl:2222. 


然后 在 运行 第 一 个 计算 服务 器 的 机 器 上 局 动 以 下 命 


pvthionscLst ttmnlet:asynC: DYN 

--job name='worker' \ 

--task id=0 \ 

BoshosLss tt Ds: 222 2 N\ 

--worker hosts='tf-worker0:2222,tf-workerl:2222' 


最 后 在 运行 第 二 个 计算 服务 器 的 机 器 上 启动 以 下 命令 


pythonsalstitft mist asyno ny 
--job name=!'worker’' \ 

--task id=1 \ 
-psehosts="tf-ps0:22222\ 


~--worker hosts='tf-worker0:2222,tf-workerl:2222' 


在 启动 第 一 个 计算 服务 器 之 后 ， 这 个 计算 服务 器 就 会 尝试 连接 其 他 的 服务 器 包括 计 


算 服务 器 和 参数 服务 器 )。 如 果 其 他 服务 器 还 没有 局 动 , 则 被 局 动 的 计算 服务 器 会 报 连接 出 
错 的 问题 。 下 面 展示 了 一 个 出 错 信息 。 


El20L501:26:04,.1606203632 ZLA402 topscllientposiwC 3] faileds to 


connect to 'ipv4:tf-workerl:2222': socket error: connection refused 


不 过 这 不 会 影响 TensorFlow 集群 的 启动 。 当 TensorFlow 集群 中 所 有 服务 器 都 被 局 动 之 


后 , 每 一 个 计算 服务 器 将 不 再 报错 。 在 TensorFlow 集群 完全 启动 之 后 ， 训练 过 程 将 被 执行 。 
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10-9 展示 了 第 一 个 计算 服务 器 的 TensorFlow 计算 图 。 从 图 10-9 中 可 以 看 出 ， 神 经 网 络 
中 定义 的 参数 被 放 在 了 参数 服务 器 上 (图 中 浅 灰 色 节 点 ), 而 反 疝 传播 的 计算 过 程 则 放 在 了 
当前 的 计算 服务 器 上 (图 中 的 深 灰 色 节 点 )。 
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图 10-9 通过 TensorBoard 可 视 化 的 分 布 式 TensorFlow 计算 图 


在 计算 服务 器 训练 神经 网 络 的 过 程 中 ， 第 一 个 计算 服务 器 会 输出 类 似 下 面 的 信息 。 


After 100 training steps (100 global steps), loss on training batch is 
03027L8. (0 039nsec/bateh} 

After 200 training steps (200 global steps), loss on training batch is 
0.269476. : (0.037 sec/batch) I 

After 300 training steps (300 global steps), loss on training batch is 
0.286755. (0.037 sec/batch) 

After 400 training steps (463 global steps), loss on training batch is 
0.349983.. (0»0335 Sec/batch) SEE 3 

After 500 training steps (666 global steps), loss on training batch is 
0.229955. (0.029 sec/batch) 

After 600 training steps (873 global steps), loss on training batch is 
O02455883 0 (0.027 3SecADatch) 


第 二 个 计算 服务 器 会 输出 类 似 下 面 的 信息 。 


After 100 training steps (537 global steps)r .losseon trainings batehsis 
0 223105 (OOO TS eo Dacch) 
After 200 training steps (732 global steps), loss on training batch is 
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0.186126. (0.010 sec/batch) 
After 300 training steps (925 global steps), loss on training batch is 
0.228191. (0.012" sec/bateh) 


从 输出 的 信息 中 可 以 看 到 ， 在 第 二 个 计算 服务 器 局 动 之 前 ， 第 一 个 计算 服务 器 已 经 运 
行 了 很 多 轮 迭 代 了 。 在 异步 模式 下 ， 即 使 有 计算 服务 器 没有 正和 工作 ， 参 数 更 新 的 过 程 仍 
可 继续 ， 而 且 全 局 的 迭代 轮 数 是 所 有 计算 服务 器 迭代 轮 数 的 和 。 


同步 模式 样 例 程序 
和 异步 模式 类 似 ， 下 面 给 出 的 代码 同样 也 是 基于 5.5 小 市 中 给 出 的 框架 。 该 代码 实现 
了 同步 模式 的 分 布 式 神经 网 络 训练 过 程 。 


# -*- coding: utf-8 一 * 一 


import time 
import tensorflow as tf 
from tensorflow.examples.tutorials.mnist import input data 


mport mniste nference 


BATCH SIZE = 100 
LEARNING RATE BASE = 0.8 
LEARNING RATE DECAY = 0.99 
REGULARAZTION RATE = 0.0001 
TRAINING STEPS = 10000 - 
MODEL SAVE PATH = "/path/to/model" 
DATA PATH = "/path/to/data" 


# 和 异步 模式 类 似 的 设置 flags。 
FLAGS = tf.app.flags.FLAGS 


tfaapps flags- DERINE: :String (Ee obsname rr WOrker SDSL Or WOLKeIZ ED) 
tf.app.flags.DEFINE String (人 
PSEnosSt om tf-ps0:2222,tf-ps1:1111', 
'Comma-separated list of hostname:port for the parameter server jobs. ' 
OngGsp tf- DSON22220 CE DS Ld Ts) 


tf.app.flags.DEFINE stringl( 
worker “hosts "tf -WworKerO02222ntfswOorkerl: lllle 
'Comma-separated list of hostname:port for the worker jobs. ' 


VO tf WOrKer0 222 tft WOKer Ts li) 


tf.app.flags.DEFINE integer ( 
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‘task id', 0, 'Task ID of the worker/replica running the training.') 


# 和 异步 模式 类 似 地 定义 TensorFlow 的 计算 图 。 唯 一 的 区 别 在 于 使 用 

# tf.train.SyncReplicasOptimizer 畏 数 处 理 同步 更 新 。 

def “build model (x, y , n workers, SHChEeE): 
regularizer = tf.contrib.layers.12 regularizer (REGULARAZTION RATE) 
y = mnist inference.inference(x, regularizer) 
global step = tf.Variable(0, trainable=False) 


variable averages = tf.train.ExponentialMovingAverage ( 
MOVING AVERAGE DECAY, global step) 


variables averages op = variable averages.apply (tf.trainable variables ()) 


cross entropy = tf.nn.sparse softmax cross entropy with 1ogits ( 
Vs lo Ma (Vos rssl:)s) 

Cross entropy mean = tf.reduce meanl(cross entropy) 

loss = cross entropy mean + tf.add n(tf.get collection('losses')) 

learning rate = tf.train.exponential decay ( 


LEARNING RATE BASE, global step, 60000 / BATCH SIZE, 
LEARNING RATE DECAY) 


# 通过 tf.train.SyncReplicasOptimizer 函数 实现 同步 更 新 。 
opt = tf.train.SyncReplicasOptimizer( 
# 定义 基础 的 优化 方法 。 
tf.train.GradientDescentOptimizer (learning rate), 
# 定义 每 一 轮 更 新 需要 多 少 个 计算 服务 器 得 出 的 梯度 。 
replicas to aggregate=n workers, 
# 指定 总 共有 多 少 个 计算 服务 器 。 
total num replicas=n workers, 
# 指定 当前 计算 服务 器 的 编号 。 
replica id=FLAGS.task id) 


train op = opt.minimize (loss, global step=global step) 
return global” step, loSsSs, trains opr opt OA 


def main (argv=None): 
# 和 异步 模式 类 似 地 创建 TensorFlow 集群 。 
psehosts = ELAGS.ps hostsssplit (>,) 
worker hosts = ELAGS.worker hosts.split(,') 
n workers = len(worker hosts) 


cluster=tf.train.ClusterSpec({"ps": ps hosts, "worker": worker hosts}) 
SELVvermsmLE Crarnm er 


cluster, job name = FLAGS.job name, task index=FLAGS.task id) 
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bEANGO Oarame. = HDS 
server.]Join() 


Ts chief = (ELAGS .task sid ==0) 
mnist = input data:;read’ data sets(DATA PATH, ‘one’ hot=True) 


witheths devioel(tft traln repl loaudev oensetter( 

worker device="/job:worker/task:%d" % FLAGS.task id, 
cluster=cluster)): 

x = tf.placeholder( 
tf -float32r [Noner mnist inference. INPUT* NODE 
name="'x-input') 

Vt DEaCenolder:( 
tf.float32, [None, mnist inference.OUTPUT NODE], 
name='y-input') 

globals stepy lL0ossy trains opy opt =“build model ( 
XV en WOrKerSsn ls Chiet) 


saver = tf.train.Saver () 
summary op = tf.merge all summaries () 
mn Geope = tt initiallizemall variabLes.() 


# 在 同步 模式 下 ， 主 计算 服务 器 需要 协调 不 同 计算 服务 器 计算 得 到 的 参数 梯度 并 最 终 更 新 
# 参数 。 这 需要 主 计算 服务 器 完成 一 些 额 外 的 初始 化 工作 。 
EC 

# 定义 协调 不 同 计算 服务 器 的 队列 并 定义 初始 化 操作 。 

chief queue runner = opt.get chief queue runner() 

init tokens op = opt.get. init: tokens op'(0) 


# 和 异步 模式 类 似 的 声明 tf.train.Supervisor。 

Sy = tf.train.Supervisor (is: chief=is chief, 
logdir=MODEL SAVE PATH, 
Tniteop=init oF; 
summary op=summary op， 
saver=saver, 
global“step=global :stepy 
save model secs=60, 
save summaries secs=60) 

sess config = tf.ConfigProto(allow soft placement=True, 

; logedevicers pjacement=Ealse) 
sess = sv.prepare or wait for Session ( 
server.target, config=sess config) 
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# 在 开始 训练 模型 之 前 ， 主 计算 服务 器 需要 启动 协调 同步 更 新 的 队列 并 执行 初始 化 操作 。 
SECR 工 es 
sv Startoaueuesrunners(sessy Lohlief squeuesr unnerl) 
sess.run(init tokens op) 


# 和 异步 模式 类 似 的 运行 迭代 的 训练 过 程 。 
step = 0 
start time = time.time() 
while not sv.should stop () : 
XS ys = mnist.train.next batch (BATCH SIZE) 
LOoSss valuer® giobal step value = :SesSs -rin( 
[traLrn op lossmglobalsstepl eteedr drt = {CN XS YYyS.}) 
if global step value >= TRAINING STEPS: break 


1If step > 0 and step $% 100 == 0: 
duration =stime tinme()s = Startstine 
sec per batch = duration / (global step value * n workers) 
format str = ("After %d training stepss(%d gL}lobal steps)r" 
LOSSSONn traaninga baton Sb 
(PSF Sec/Datceh)e,) 
print (format str % (step, global step value, 


Jossevaluer ssece per bateh)) 
step += 1 
SV.StoPp () 


LTAmen NAT 
tf apps uns() 


和 异步 模式 类 似 , 在 不 同 机 器 上 运行 以 上 代码 就 可 以 启动 TensorFlow 集群 。 但 和 异步 
模式 不 同 的 是 ， 当 第 一 台 计 算 服务 器 初始 化 完毕 之 后 ， 它 并 不 能 直接 更 新 参数 。 这 是 因为 
在 程序 中 要 求 每 一 次 参数 更 新 都 需要 来 自 两 个 计算 服务 器 的 梯度 。 在 第 一 个 计算 服务 器 上 ， 
可 以 看 到 与 下 面 类 似 的 输出 。 


岂 二 二 村 0250456203632Z 21402 tcp _ client posix.c:173] failed to 
Connect to 'ipv4:10.57.60.76:2222': socket error: connection refused 
After 100 training steps (100 global steps), loss on training batch is 
1.88782. (0.176 sec/batch) 


After 200 training steps (200 global steps), loss on training batch is 
0.834916. (0.101 sec/batch) 


After 800 training steps (800 global steps), loss on training batch is 
0.524181. (0.045 sec/batch) 


After 900 training steps (900 global steps), loss on training batch is 
0.384861. (0.042 sec/batch) 
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第 二 个 计算 服务 器 的 输出 如 下 : 


After 100 training steps (100 ~ global steps); loss on training batehsLs 
1.88782. (0.028 sec/batch) | 
AFterm00 tralningsestepsa(2Z00 global: steps)y 1oss On tralningebatehels 
QOL (O02 SCADatch) 


After 800 training steps (800 global steps), loss on training batch is 
0.474765. (0.026 sec/batch) 
ALttersoU00 trarning :Steps (S900 Globpal steps); LOSSs® on trainings batehess 
O04207069 58505026SSecCAbachy 


在 第 一 个 计算 服务 器 的 第 一 行 输出 中 可 以 看 到 ， 前 100 轮 迭 代 的 平均 速度 为 0.176 
sec/batch， 要 远 远 慢 于 最 后 的 平均 速度 0.042 sec/batch。 这 是 因为 在 第 一 迭代 轮 开 始 之 前 ， 
第 一 个 计算 服务 器 需要 等 符 第 二 个 计算 服务 器 执行 初始 化 的 过 程 ， 于 是 导致 前 100 轮 帮 代 
的 平均 速度 是 最 慢 的 。 这 也 反应 了 同步 更 新 的 一 个 问题 。 当 一 个 计算 服务 器 被 卡 住 时 ， 其 
他 所 有 的 计算 服务 器 都 需要 等 待 这 个 最 慢 的 计算 服务 器 。 

为 了 解决 这 个 问题 ， 可 以 调整 攻 train.SyncReplicasOptimizer 函数 中 的 replicas to 
aggregate 参数 。 当 replicas_ to_aggregate 小 于 计算 服务 器 总 数 时 ， 每 一 轮 和 迭 代 就 不 需要 收集 
所 有 的 梯度 ， 从 而 避免 被 最 慢 的 计算 服务 器 卡 住 。TensorFlow 也 文 持 通过 调整 同步 队列 初 
始 化 操作 tf.train.SyncReplicasOptimizer.get_ init tokens op 中 的 参数 来 控制 对 不 同 计 算 服 务 
器 之 间 的 同步 要 求 。 当 提供 给 初始 化 函数 get init tokens op 的 参数 大 于 0 时 ，TensorFlow 支 
持 多 次 使 用 由 同一 个 计算 服务 器 得 到 的 梯度 ， 于 是 也 可 以 缓解 计算 服务 器 性 能 瓶颈 的 问题 。 


10.4.3 ”使 用 Caicloud 运行 分 布 式 TensorFlow 


从 10.4.2 小 节 中 给 出 的 样 例 程序 可 以 看 出 ， 每 次 运行 分 布 式 TensorFlow 都 需要 登录 不 
同 的 机 器 来 局 动 集群 。 这 使 得 使 用 起 来 非常 不 方便 。 当 需要 使 用 100 台 机 器 运行 分 布 式 
TensorFlow 时 ， 需 要 手动 登录 到 每 一 台 机 器 并 局 动 TensorFlow 服务 ， 这 个 过 程 十 分 烦 琐 。 
而 且 ， 当 某 个 服务 器 上 的 程序 死 掉 之 后 ，TensorFlow 并 不 能 自动 重启 ， 这 给 监控 工作 带 来 
了 巨大 的 难度 。 如 果 类 比 TensorFlow 与 Hadoop?， 可 以 发 现 TensorFlow 只 实现 了 相当 于 
Hadoop 中 MapReduce 的 计算 框架 ， 而 没有 提供 类 似 Yam 的 集群 管理 工具 以 及 HDFS 的 存 
储 系统 。 为 了 降低 分 布 式 TensorFlow 的 使 用 门槛 , 才 云 科技 (Caicloud.io) 基 于 Kubernetes” 容 


QD 更 多 关于 Hadoop 的 介绍 可 以 参考 其 官方 网 站 : http://hadoop.apache.org/。 
色 更 多 关于 Kubernetes 的 介绍 可 以 参考 其 官方 网 站 : http://kubernetes.io/。 
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器 云 平台 提供 了 一 个 分 布 式 TensorFlow 平台 TensorFlow as a Service (TaaS)“。 本 节 中 将 
大 致 介绍 如 何 使 用 Caicloud 提供 的 Taag 平台 运行 分 布 式 TensorFlow。 

从 10.4.2 小 节 中 给 出 的 代码 可 以 看 出 ， 编 写 分 布 式 TensorFlow 程序 需要 指定 很 多 与 模 
型 训练 无 天 的 代码 来 完成 TensorFlow 集群 的 设置 工作 。 为 了 降低 分 布 式 TensorFlow 的 学 习 
成 本 ，Caicloud 的 TensorFlow as a Service (TaaS) 平台 首先 对 TensorFlow 集群 进行 了 更 高 
层 的 封装 ， 屏 蔽 了 其 中 与 模型 训练 无 关 的 底层 细节 。 其 次 ，TaaS 平台 结合 了 谷歌 开源 的 容 
器 云 平 全 管理 工具 Kubermnetes 来 实现 对 分 布 式 TensorFlow 任务 的 管理 和 监控 ,并 支持 通过 
UI 设置 分 布 式 TensorFlow 任务 的 节点 个 数 、 是 否 使 用 GPU 等 信息 。 

Caicloud 的 TaaS 平台 提供 了 一 个 抽象 基 类 CaicloudDistTensorflowBase, 该 类 封装 了 分 
布 式 TensorFlow 集群 的 配置 与 启动 、 模 型 参数 共享 与 更 新 逻辑 处 理 、 计 算 节 点 之 间 的 协同 
交互 以 及 训练 得 到 的 模型 和 日 志 的 保存 等 与 模型 训练 过 程 无 关 的 操作 。 用 户 只 需要 继承 该 
基 类 ， 并 实现 与 模型 训练 相关 的 函数 即 可 。 其 代码 结构 如 下 : 


import caicloud dist tensorflow base as caicloud 
class MyDistTfModel (caicloud.CaicloudDistTensorflowBase): 


""" 基 于 目 身 业务 来 定义 训练 模型 、 执 行 训练 操作 等 """ \ 

用 尸 继承 的 类 需要 选择 性 地 实现 CaicloudDistTensorflowBase 基 类 中 的 4 个 函数 ， 它 们 
分 别 是 build_model、get init fn、train 和 after train。build model 给 出 了 定义 TensorFlow 
计算 图 的 接口 。 在 这 个 函数 中 ， 用 户 需要 处 理 输入 数据 、 定 义 深度 学 习 模 型 以 及 定义 训练 
模型 的 过 程 。get init fn 函数 中 可 以 定义 在 会 话 (tf.Session) 生成 之 后 需要 额外 完成 的 初始 
化 工作 ， 当 没有 特殊 的 初始 化 操作 时 ， 用 户 可 以 不 用 定义 这 个 函数 。 这 个 函数 可 以 完成 模 
型 预 加 载 的 过 程 。train 函数 中 定义 的 是 每 一 轮训 练 中 需要 运行 的 操作 。Taag 会 自动 完成 和 迭 
代 的 过 程 ， 但 用 户 需 要 定义 每 一 轮 迭 代 中 需要 执行 的 操作 。 最 后 在 训练 结束 之 后 ， 用 户 可 
以 通过 定义 after_train 来 评测 以 及 保存 最 后 得 到 的 模型 。 下 面 将 通过 TaaS 平台 实现 分 布 式 
TensorFlow 训练 过 程 来 解决 MNIST 问题 %。 

import tensorflow as tf 


from tensorflow.examples.tutorials.mnist import input data 
import caicloud dist tensorflow base as caicloud 


(D TaaS 公有 云 服 务 测试 版 将 于 2017 年 3 月 底 正式 上 线 。 

G Caicloud 提供 的 TaaS 平台 只 支持 TensorFlow 0.12.0 及 以 上 版 本 。 

@) 在 Caicloud 提供 的 开发 环境 中 可 以 加 载 caicloud dist tensorflow base 模块 。Caicloud 同时 也 提供 了 用 
于 开发 的 caicloud dist tensorflow_base 源 代 码 及 pip 安装 包 ， 感 兴趣 的 读者 可 以 参考 才 云 科技 官网 
calcloud.lo。 
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class CaicloudDistMnist(caicloud.CaicloudDistTensorflowBase): 

# 定义 神经 网 络 前 问 传 播 的 过 程 。 

Qef inference(self, “images): 
w = tf.Variable (tf.zeros([784, 10]), name='weights'!') 
tf.summary.histogram("weights", w) 
b = tf.Variable (tf.zeros([10]), name='bias') 
tf.summary.histogram("bias", b) 
predictions = tf.matmul (ijmages, w) + b 
return predictions 


# 定义 优化 函数 。 在 同步 模式 下 需要 使 用 SyncReplicasOptimizerV2 来 同步 不 同 worker。 
detesoCreatemoptimizer(Selt SynNnc enumereplicas): 
optimizer = tf.train.AdagradOptimizer(0.01);，; 
SITTGR 
num workers = num replicas 
optimizer = tf.train.SyncReplicasOptimizerV2( 
optimizer, 
replicas to aggregate=num workers, 
total num replicas=num workers, 
name="mnist sync replicas”) 
return optimizer 


# build model 函数 中 ，global step 参数 是 全 局 的 训练 轮 数 ， 在 定义 优化 函数 时 需要 将 训 
# 练 轮 数 作 为 参数 传 入 , 这样 global step 可 以 通过 优化 器 目 动 维护 。is_chief 参数 给 出 了 
# 当前 节点 是 否 为 主 计算 节点 。sync 参数 给 出 了 是 否 使 用 同步 模式 。 当 sync 为 True 时 模型 
# 需要 采用 同步 模式 更 新 ， 否则 使 用 异步 模式 。num replicas 参数 给 出 了 该 TensorFlow 集 
# 群 中 计算 节点 的 个 数 。build model 函数 需要 返回 一 个 tensorflow.train.Optimizer 
# 对 象 ，TaasS 平台 将 自动 使 用 该 对 象 来 完成 同步 模式 下 初始 化 的 工作 。 
def burldimodeF(self7 global stepr 1s chief, sync, num replicas):: 

# 定义 当前 worker 的 训练 轮 数 ， 该 变量 可 以 用 来 输出 训练 信息 。 

SeLEsStSpRa0 


# 加 载 MNIST 数据 ， 数 据 存放 的 地 址 需要 为 Caicloud 提供 的 存储 路 径 。 


mnist = input data.read data sets( : 
CAalCLOUd/AdESE = ta one hot=True) 
SelE mnist = mnist 


# 定义 神经 网 络 的 输入 和 模型 的 前 问 传 播 。 
input images = tf.placeholder' 

tf.float32, [None, 784], name='images') 
self. input images = input images 
predictions = self. inference(input images) 


# 定义 损失 函数 。 
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labels = tf.placeholder (tf.float32, [None, 10], name='labels') 
SEE LaDelss 二 adels 
SrOSSSentropyYs Ett ed Cesmeans 
tf.nn.softmax cross entropy with logits'‘(predictions, labels)) 
Self- OSs = ESEeCUCeEmEaa 式 
cross entropy,: name=’cCross entropy mean |) 


# 定义 优化 函数 。 在 调用 优化 函数 时 ， 我 们 需要 将 global_step 传 入 优化 函数 ， 否 则 系统 
# 将 无 法 获取 全 局 的 训练 轮 数 。 
口 站 七 工 T 玉 莹 所 于 二 二 Se 站 CEea 丰 copEmazesyne7anumSePLLCSSy 
train op = optimizer.minimize\ 
Cross entropy, global step=global, step) 
Sel ftraLn op =— trartnaop 


# 定义 计算 正确 率 的 方法 。 

correct prediction = tf.equal (tf.argmax (predictions, 1), 
tf,argmax (labels, 1)) 

accuracy =:tf reducesmeam(trtecCast (Correctepreoretiony attfetlioatd2)) 

Sefsaccuracy=aecDacy 


# 返回 优化 函数 。 


return optimizer 


# Caicloud Taa5S 平台 在 生成 TensorFlow 会 话 〈《Session) 之 后 会 自动 地 执行 默认 的 初 
# 始 化 操作 ， 例 如 参数 初始 化 、 同 步 模式 更 新 队列 初始 化 等 。 但 如 果 用 尸 有 其 他 需要 在 开始 模 
# 型 训练 之 前 完成 的 操作 ， 例 如 模型 预 加 载 ， 则 可 以 通过 定义 get init fn 函数 来 完成 。 
# get init fn 函数 的 参数 checkpoint path 提供 了 用 于 模型 预 加 载 的 checkpoint 文件 
# 地 址 或 checkpoint 文件 所 在 目录 的 路 径 。get init fn 函数 的 返回 为 一 个 函数 ， 该 函数 
# 必须 接收 一 个 参数 ， 即 一 个 可 用 的 会 话 〈(Session)。 该 函数 将 在 启动 模型 训练 之 前 被 调用 。 
# 以 下 代码 展示 了 如 何 通过 该 函数 进行 模型 预 加 载 。 
def get nit fn(selfrscheckpoint path)s: 
# 获取 模型 文件 地 址 。 
1 cfsGErlesLtSDIrectory(checkporntepath)e: 
checkpoint path = tf.train.latest checkpoint (checkpoint path) 
else: 
checkpoint path = checkpoint path 
print ('warm-start from checkpoint {0}'.format (checkpoint path)) 


# 模型 预 加 载 。 


saver = tf.train.Saver (tf.trainable variables'()) 
def InitAssignFn (sess): 
saver- restore(sSessr checkpoint path) 


# 返回 执行 模型 预 加 载 的 函数 。 
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return InitAssignFn 


# Caicloud TaaS 平台 会 自动 地 循环 调用 train 函数 来 训练 深度 学 习 模 型 。train 函数 中 ， 
# 用 户 只 需要 定义 每 一 轮训 练 中 需要 执行 的 步骤 。 训练 的 步骤 可 以 包括 调用 优化 函数 以 及 计算 滑 
# 动 平 均等 。train 函数 需要 返回 一 个 布尔 类 型 ,表示 当前 训练 是 否 需 要 结束 。 这 样 可 以 支持 当 
# 正确 率 比 较 稳 定之 后 提前 结束 训练 。 
def tronn(self SessLonrgqlobal: stepr™1is chief): 
# 执行 模型 训练 步骤 并 记录 时 间 。 
start 七 Ime = 七 Ime 七 Ime () 
batehsxsr baltcn ys =a Self mlst traln next batch(L00) 
teedsdrots=3 (Self. "inputsimages batch xsr self, :Labels: Datehs ve 
= oss vale np globalsstep:=. sesslonsrun\ 
Sel tralnsop;raSselfssLossr. dLobalsstepl] 
feed -dict=feéed, dreE) 
Sl Eastep 让 =. 
duration: = time:time() -start: time 


# 每 隔 一 段 时 间 输 出 训练 信息 。 
Lf Self Stepav 0 = 
praenb(s top Sd Lo = 2 (bc GLobal :ste Ss te 
self. stepr Losssvalue, durationr np -global'step)) 
BSLlf. Stepas: 000s== 
print ("Accuaracy on Validation Data: %.3f" % session.run'l 
self accuracyr feedsdict={ 
self inputsimages: Selt mist.validationsinmages; 
Self- labels:=Self = mist validation:Llabels})) 
return False 


# 在 模型 训练 成 功 结束 后 希望 能 够 计算 最 终 训练 得 到 的 模型 在 MNIST 测试 数据 集 上 的 正确 率 。 
# 这 个 过 程 可 以 通过 定义 after train 函数 来 实现 。 类 似 的 ， 用 户 也 可 以 在 after train 
# 函数 中 保存 最 终 的 模型 。 
defaftter” traln(self; sessionrtis:ohief): 
DEL (LtraLn one.. ; 
print(aAccuracvy ono Test Datau v3 SeSsSiton..rEun( 
self. accuracy, feed dict={ 
Self “Inputeimages Selfe mist,test?limagesy 
selif.slabels:. :self mlst.tests Labels})d 


将 以 上 代码 提交 到 Caicloud 的 TaaS 平台 之 后 , 可 以 看 到 类 似 图 10-10 所 示 的 监控 页 面 。 
在 监控 页 面 中 , TaaS 提供 了 对 资源 利用 率 、 训练 进度 、 训练 模式 程序 日 志 以 及 TensorBoard 
等 多 种 信息 的 综合 展示 ， 用 户 可 以 更 好 地 了 解 训 练 的 进度 和 状态 。 因 为 篇 幅 所 限 ， 对 TaaS 
感 兴趣 的 读者 可 以 在 Caicloud 的 官方 网 站 caicloud.io 上 找到 更 多 信息 和 教程 。 
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图 10-10 Caicloud 提供 的 TaaS 分 布 式 TensorFlow 任务 详情 页 面 
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在 本 章 中 介绍 了 TensorFlow 如 何 通过 GPU 或 /和 分 布 式 集群 的 方式 加 速 深度 学 习 模 型 
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的 训练 过 程 。 首 先 ，10.1 节 介 绍 了 在 TensorFlow 中 使 用 单个 GPU 加 速 计算 的 过 程 。 
TensorFlow 对 于 单个 GPU 的 支持 是 非常 方便 的 ， 几 乎 不 需要 任何 的 额外 设置 。TensorFlow 
可 以 自动 将 计算 优先 分 配 到 GPU 上 。 这 一 节 也 介绍 了 如 何 使 用 葵 device 函数 来 手动 配置 计 
算 运 行 的 设备 。 然 后 ， 在 10.2 节 中 详细 介绍 了 训练 深度 学 习 模 型 的 并 行 模式 。 这 一 节 中 介 
绍 了 同步 模式 和 异步 模型 两 种 并 行 模 式 , 并 介绍 了 这 两 种 模式 各 目的 优 缺 点 。 接 着, 在 10.3 
节 中 给 出 了 通过 TensorFlow 实现 了 在 一 全 机 营 的 多 个 GPU 上 并 行 地 训练 深度 学 习 模 型 。 

最 后 , 在 10.4 节 中 介绍 了 如 何 通过 TensorFlow 集群 进一步 加 大 训练 深度 学 习 模 型 的 并 
行 化 程度 。10.4.1 小 节 介绍 了 TensorFlow 集群 的 运行 机 制 ， 并 给 出 了 启动 简单 TensorFlow 
集群 的 样 例 程序 。 这 个 小 节 中 也 介绍 了 TensorFlow 集群 的 计算 图 内 分 布 式 方式 和 计算 图 之 
间 分 布 式 方式 ， 并 指出 在 海量 数据 下 ,使 用 计算 图 之 则 分 布 式 方式 的 可 扩展 性 更 强 。10.4.2 
小 节 给 出 了 具体 的 TensorFlow 代码 ， 该 代码 通过 计算 图 之 间 分 布 式 方式 实现 了 并 行 化 深度 
学 习 模 型 训练 的 同步 模式 和 异步 模式 。10.4.3 小 节 中 指出 了 原生 的 TensorFlow 在 支持 分 布 
式 中 的 不 足 ， 并 介绍 了 如 何 使 用 才 云 科技 〈caicloud.io) 提供 的 TensorFlow as a Service 平 
台 来 更 加 高 效 的 运行 分 布 式 TensorFlow 模型 训练 过 程 。 
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终于 等 到 了 一 本 中 文 的 介绍 TensorFlow 的 书 。 这 本 
书 和 其 他 介绍 技术 框架 的 书 不 太一 样 ， 它 从 深度 学 习 
简介 开始 ， 一 点 一 点 深入 到 TensorFlow 的 使 用 ， 同 
时 把 算法 和 框架 的 使 用 结合 起 来 ， 让 读者 在 了 解 框 架 
的 同时 ， 还 能 够 更 深入 地 了 解 深度 学 习 算 法 的 原理 。 
示例 代码 注释 详尽 ， 语 言 风 格 通俗 易 懂 ， 算 法 介绍 由 
浅 入 深 ， 可 谓 是 不 可 多 得 的 好 书 。 

冯 博 TalkingData 数据 科学 家 


本 书 由 浅 入 深 ,介绍 了 TensorFlow 在 典型 场景 中 的 
应 用 实践 ， 提 供 分 布 式 训 巍 等 大 量 实例 ， 是 TensorFlow 
开发 者 和 深度 学 习 爱 好 者 的 必 备 参考 资料 。 

陈 迪 豪 ”小 米 深度 学 习 工 程 师 


Google 的 每 一 次 技术 发 布 ， 都 会 成 为 万 众 瞩目 的 焦 
点 。TensorFlow 从 开源 到 现在 短 短 一 年 多 时 间 ,， 已 
经 吸引 了 全 球 开发 者 、 机 器 学 习 爱 好 者 、 科 研 和 企业 
用 户 贡 献 代 码 ， 新 功能 如 雨后春笋 般 出 现 ， 和 迭代 周 
期 之 短 ， 响 应 速度 之 快 ， 业 界 无 二 。 其 独特 的 张 量 
( Tensor ) 和 图 ( Graph ) 构建 算法 模型 的 方式 让 
人 耳目 一 新 ， 给 模型 设计 者 更 大 的 自由 度 。 
TensorFlow 的 入 门 学 习 资 源 也 琳琅 满目 ， 让 人 目 不 
暇 接 ， 无 从 选择 ，《TensorFlow: 实战 Google 深 度 
学 习 框 架 》 这 本 书 的 出 现 对 国内 开发 者 可 谓 及 时 雨 ， 
从 基本 概念 到 完整 模型 ， 从 抽象 理论 到 工程 实现 ， 涵 
盖 了 图 像 、 文 本 领域 的 常用 方法 ， 以 及 可 视 化 和 分 布 
式 计 算 等 高 级 主题 ， 相 信 开 卷 之 后 大 有 神 益 ， 助 力 开 
发 者 完成 产品 级 应 用 落地 。 

赵 永 科 阿里 云 资深 研发 工程 师 
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Google 的 深度 学 习 开 源 方 案 TensorFlow 近 年 来 在 人 
工 智能 领域 被 广泛 使 用 并 大 放 异 彩 。 本 书 不 仅 对 深度 
神经 网 络 的 底层 技术 做 了 讲解 ， 还 提供 了 Tensor- 
Flow 在 图 像 处 理 、 语 义理 解 、 性 能 加 速 、 数 据 可 视 
化 等 方面 的 实战 案例 ， 浓 缩 了 大 量 开发 经 验 和 实践 知 
识 ， 是 一 本 极 有 参考 价值 的 TensorFlow 中 文 著作 。 

陈 运 文 。 达观 数据 董事 长 兼 CEO 


作为 一 款 十 分 优秀 的 基于 计算 图 的 机 器 学 习 框 架 ， 
TensorFlow 自 面世 便 已 得 到 了 极 大 的 关注 。 本 书 由 


浅 入 深 地 讲解 了 TensorFlow 的 基本 使 用 方式 和 经 典 


的 深度 学 习 模 型 的 实践 方案 ， 其 中 既 包 含 了 大 量 的 实 
际 案例 ， 也 包含 了 作者 对 于 模型 和 研究 问题 的 理解 。 
对 于 使 用 TensorFlow 的 新 手 来 说 ， 本 书 可 以 帮助 他 
们 快速 入 门 ; 对 于 有 一 定 使 用 经 验 的 人 士 来 说 ， 本 书 
也 是 一 本 帮助 他 们 查阅 相关 资料 的 优秀 的 工具 书 。 
邓 浏 军 ” 猿 辅导 研究 部 总 监 


本 书 作 者 以 美国 项 级 大 学 读 研 的 学 识 、Google 全 职 
算法 专家 的 经 验 ， 从 0 到 1 系统 地 讲解 了 深度 学 习 以 及 
全 球 最 受 欢 迎 的 深度 学 习 框 架 TensorFlow， 并 提供 
了 多 种 场景 的 应 用 实例 ， 是 深度 学 习 应 用 领域 的 开创 
性 著作 。 
向 光 北京 数 问 科技 有 限 公司 创始 人 、CEO， 
Carnegie Mellon University 计 算 机 博士 


国内 第 一 本 关于 TensorFlow 实 战 的 书 ， 通 俗 易 懂 ， 
深入 浅 出 ， 强 烈 推荐 ! 
唐 建 ”深度 学 习 专家 ， 密 歌 根 大 学 博士 后 











